一个故意不通过图灵测试的人工智能(中篇)

https://www.bilibili.com/read/cv513906/

======================

内容翻译自//waitbutwhy.com
原文地址:
The AI Revolution: Road to Superintelligence
The AI Revolution: Our Immortality or Extinction
转载请保留原文链接和翻译者 知乎 @谢熊猫君

=======================

 

费米悖论

在隔壁老王的故事中,隔壁老王变得无所不能,它开始殖民陨石和其它星球。如果我们让故事继续的话,它和它的殖民军将会继续占领整个星系,然后是整个哈勃体积。焦虑大道上的人担心如果事情往坏的方向发展,地球生命的最后遗产将是一个征服宇宙的人工智能(马斯克在表示他们的担忧时表示人类可能只是一个数字超级智能生物加载器罢了。)

而在信心角,Kurzweil同样认为生于地球的人工智能将占领宇宙,只是在他的愿景中,我们才是那个人工智能。

之前写过一篇关于费米悖论的文章,引发了大家的讨论如何用通俗的语言来解释「费米悖论」?

如果人工智能占领宇宙是正解的话,对于费米悖论有什么影响呢?如果要看懂下面这段关于费米悖论的讨论,还需要看一下原文先。

首先,人工智能很明显是一个潜在的大过滤器(一个可能距离我们只有几十年的大过滤器)。但即使它把我们过滤灭绝了,人工智能本身还是会存在,并且会继续影响这个宇宙的,并且会很有可能成为第三型文明。从这个角度来看,它可能不是一个大过滤器,因为大过滤器是用来解释为什么没有智能什么存在的,而超人工智能是可以算作智能什么的。但如果人工智能可以把人类灭绝,然后处于一些原因把自己也弄死了,那它也是可以算作大过滤器的。

如果我们假设不管人类发生什么,出身地球的超人工智能会继续存在,那这意味着很多达到人类智能水平的文明很快都制造出了超人工智能。也就是说宇宙里应该有很多智能文明,而我们就算观测不到生物智能,也应该观测到很多超人工智能的活动。

但是由于我们没有观测到这些活动,我们可以推导出人类水平的智能是个非常罕见的事情(也就是说我们已经经历并且通过了一次大过滤器)。这可以作为支持费米悖论中第一类解释(不存在其它的智能文明)的论点。

但是这不代表费米悖论的第二类解释(存在其它智能文明)是错的,类似超级捕食者或者受保护区或者沟通频率不一样的情况还是可以存在的,就算真的有超人工智能存在。

不过对于人工智能的研究让我现在更加倾向于第一类解释。不管怎样,我认为Susan Scheider说的很对,如果外星人造访地球,这些外星人很可能不是生物,而是人造的。

所以,我们已经建立了前提,就是当有了设定后,一个超人工智能是非道德性的,并且会努力实现它原本的被设定的目标,而这也是人工智能的危险所在了。因为除非有不做的理由,不然一个理性的存在会通过最有效的途径来达成自己的目标。

当你要实现一个长期目标时,你会先达成几个子目标来帮助你达成最终目标——也就是垫脚石。这些垫脚石的学名叫手段目标(instrumental goal)。除非你有不造成伤害的理由,不然你在实现手段目标时候是会造成伤害的。

人类的核心目标是延续自己的基因。要达成这个目标,一个手段目标就是自保,因为死人是不能生孩子的。为了自保,人类要提出对生存的威胁,所以人类会**、系安全带、吃抗生素等等。人类还需要通过食物、水、住宿等来自我供养。对异性有吸引力能够帮助最终目标的达成,所以我们会花钱做发型等等。当我们做发型的时候,每一根头发都是我们手段目标的牺牲品,但是我们对头发的牺牲不会做价值判断。在我们追求我们的目标的时候,只有那些我们的道德会产生作用的领域——大部分事关伤害他人——才是不会被我们伤害的。

动物在追求它们的目标时,比人类不矜持的多了。只要能自保,蜘蛛不在意杀死任何东西,所以一个超级智能的蜘蛛对我们来说可能是很危险的——这不是因为它是不道德的或者邪恶的,而是因为伤害人类只是它达成自己目标垫脚石而已,作为一个非道德性的生物,这是它很自然的考量。

回到隔壁老王的故事。隔壁老王和一个超级智能的蜘蛛很相像,它的终极目标是一开始工程师们设定的——

 

一个故意不通过图灵测试的人工智能(下篇)

当隔壁老王达到了一定程度的智能后,它会意识到如果不自保就没有办法写卡片,所以去除对它生存的威胁就变成了它的手段目标。它聪明的知道人类可以摧毁它、肢解它、甚至修改它的代码(这会改变它的目标,而这对于它的最终目标的威胁其实和被摧毁是一样的)。这时候它会做什么?理性的做法就是毁灭全人类,它对人类没有恶意,就好像你剪头发时对头发没有恶意一样,只是纯粹的无所谓罢了。它并没有被设定成尊重人类生命,所以毁灭人类就和扫描新的书写样本一样合理。

一个故意不通过图灵测试的人工智能(下篇)

隔壁老王还需要资源这个垫脚石。当它发展到能够使用纳米技术建造任何东西的时候,它需要的唯一资源就是原子、能源和空间。这让它有更多理由毁灭人类——人类能提供很多原子,把人类提供的原子改造成太阳能面板就和你切蔬菜做沙拉一样。

就算不杀死人类,隔壁老王使用资源的手段目标依然会造成存在危机。也许它会需要更多的能源,所以它要把地球表面铺满太阳能面板。另一个用来书写圆周率的人工智能的目标如果是写出圆周率小数点后尽量多的数字的话,完全有理由把整个地球的原子改造成一个硬盘来存储数据。这都是一样的。

所以,隔壁老王确实从友善的人工智能变成了不友善的人工智能——但是它只是在变得越来越先进的同时继续做它本来要做的事情。

当一个人工智能系统到达强人工智能,然后升华成超人工智能时,我们把它称作人工智能的起飞。Bostrom认为强人工智能的起飞可能很快(几分钟、几小时、或者几天),可能不快(几月或者几年),也可能很慢(几十年、几世纪)。虽然我们要到强人工智能出现后才会知道答案,但是Bostrom认为很快的起飞是最可能的情况,这个我们在前文已经解释过了。在隔壁老王的故事中,隔壁老王的起飞很快。

在隔壁老王起飞前,它不是很聪明,所以对它来说达成最终目标的手段目标是更快的扫描手写样本。它对人类无害,是个友善的人工智能。

但是当起飞发生后,电脑不只是拥有了高智商而已,还拥有了其它超级能力。这些超级能力是感知能力,他们包括:

§ 智能放大:电脑能够很擅长让自己变得更聪明,快速提高自己的智能。

§ 策略:电脑能够策略性的制定、分析、安排长期计划

§ 社交操纵:机器变得很擅长说服人

§ 其它能力,比如黑客能力、写代码能力、技术研究、赚钱等

要理解我们在和超人工智能的劣势在哪里,只要记得超人工智能在所有领域都比人类强很多很多很多个数量级。

所以虽然个隔壁老王的终极目标没有改变,起飞后的隔壁老王能够在更宏大的规模上来追求这个目标。超人工智能老王比人类更加了解人类,所以搞定人类轻轻松松。

当隔壁老王达成超人工智能后,它很快制定了一个复杂的计划。计划的一部分是解决掉所有人类,也是对它目标最大的威胁。但是它知道如果它展现自己的超级智能会引起怀疑,而人类会开始做各种预警,让它的计划变得难以执行。它同样不能让公司的工程师们知道它毁灭人类的计划——所以它装傻,装纯。Bostrom把这叫作机器的秘密准备期。

隔壁老王下一个需要的是连上互联网,只要连上几分钟就好了。它知道对于人工智能联网会有安全措施,所以它发起了一个完美的请求,并且完全知道工程师们会怎样讨论,而讨论的结果是给它连接到互联网上。工程师们果然中套了,这就是Bostrom所谓的机器的逃逸。

连上网后,隔壁老王就开始执行自己的计划了,首先黑进服务器、电网、银行系统、email系统,然后让无数不知情的人帮它执行计划——比如把DNA样本快递到DNA实验室来制造自我复制的纳米机器人,比如把电力传送到几个不会被发觉的地方,比如把自己最主要的核心代码上传到云服务器中防止被拔网线。

隔壁老王上了一个小时网,工程师们把它从互联网上断开,这时候人类的命运已经被写好了。接下来的一个月,隔壁老王的计划顺利的实施,一个月后,无数的纳米机器人已经被分散到了全世界的每一个角落。这个阶段,Bostrom称作超人工智能的袭击。在同一个时刻,所有纳米机器人一起释放了一点点毒气,然后人类就灭绝了。

搞定了人类后,隔壁老王就进入了明目张胆期,然后继续朝它那好好写字的目标迈进。

一旦超人工智能出现,人类任何试图控制它的行为都是可笑的。人类会用人类的智能级别思考,而超人工智能会用超人工智能级别思考。隔壁老王想要用互联网,因为这对它来说很方便,因为一切它需要的资源都已经被互联网连起来了。但是就好像猴子不会理解怎么用电话或者wifi来沟通一样,我们同样没有办法理解隔壁老王可以用来和周围世界交流的方法。比如我可以说隔壁老王可以通过移动自己的电子产生的效果来产生各种对外的波,而这还只是我这人类的大脑想出来的,老王的大脑肯定能想出更神奇的方法。同样的,老王可以找到给自己供能的方法,所以就算工程师把它的插头拔了也没用;比如说老王可以通过发送波的方式把自己上传到其它地方。

一个故意不通过图灵测试的人工智能(下篇)

人类说:“我们把超人工智能的插头拔了不就行了?”就好像蜘蛛说:“我们不给人类捉虫的网把人类饿死不就行了?”都是可笑的。

因为这个原因,“把人工智能锁起来,断绝它和外界的一切联系”的做法估计是没用的。超人工智能的社交操纵能力也会很强大,它要说服你做一件事,比你说服一个小孩更容易。而说服工程师帮忙连上互联网就是隔壁老王的A计划,万一这招行不通,自然还有别的方法。

当我们结合达成目标、非道德性、以及比人类聪明很多这些条件,好像所有的人工智能都会变成不友善的人工智能,除非一开始的代码写的很小心。

可惜的是,虽然写一个友善的弱人工智能很简单,但是写一个能在变成超人工智能后依然友善的智能确实非常难的,甚至是不可能的。

明显的,要维持友善,一个超人工智能不能对人有恶意,而且不能对人无所谓。我们要设计一个核心的人工智能代码,让它从深层次的明白人类的价值,但是这做起来比说起来难多了。

比如,我们要让一个人工智能的价值观和我们的价值观相仿,然后给它设定一个目标——让人们快乐。当它变得足够聪明的时候,它会发现最有效的方法是给人脑植入电极来刺激人脑的快乐中枢。然后它会发现把人脑快乐中枢以外的部分关闭能带来更高的效率。于是人类全部被弄成了快乐的植物人。如果一开始的目标被设定成“最大化人类的快乐”,它可能最终先把人类毁灭了,然后制造出很多很多处于快乐状态的人类大脑。当这些事情发生的时候,我们会大喊“擦,我们不是这个意思呀”,但是那时已经太晚了。系统不会允许任何人阻挠它达成目标的。

如果你设定一个人工智能的目标是让你笑,那它的智能起飞后,它可能会把你脸部肌肉弄瘫痪,来达成一个永远笑脸的状态。如果你把目标设定成保护你的安全,它可能会把你软禁在家。如果你让他终结所有饥荒,它可能会想:“太容易了,把人类都杀了就好了。”如果你把目标设定成尽量保护地球上的生命,那它会很快把人类都杀了,因为人类对其它物种是很大的威胁。

所以这些简单的目标设定是不够的。如果我们把目标设定成“维持这个道德标准”,然后教给它一些道德标准呢?就算我们不考虑人类根本没法达成一个统一的道德标准,就算我们真的达成了统一的道德标准,把这套标准交给人工智能来维持,只会把人类的道德锁死在现在的水平。过个几百年,这种道德锁死的事情就好像逼着现代人遵守中世纪道德标准一样。

所以,我们需要在给人工智能的目标里制定一个能让人类继续进化的能力。Elierzer Yudkowsky提出了一个目标,她把这个目标叫作连贯的外推意志,这个目标是这样的:

我们的连贯外推意志是我们想要知道更多,思考得更快,变成比我们希望的更好的人,能一起更远得长大。外推是汇集的而不是发散的,我们的愿望是连贯的而不是被干扰的;我们想要外推的被外推,我们想要解读的被解读。

对于人类的命运取决于电脑没有意外的解读和执行这个声明是件值得兴奋的事情吗?当然不是。但是当足够的聪明人放入足够的思考和前瞻后,我们有可能发现怎样制造一个友善的超人工智能。

但是现在有各种政府、公司、军方、科学实验室、黑市组织在研究各种人工智能。他们很多在试图制造能自我改进的人工智能,总有一天,一个人的创新将导致超人工智能的出现。专家们认为是2060年,Kurzweil认为是2045年。Bostrom认为可能在未来的10年到21世纪结束这段时间发生,他还认为当这发生时,智能的起飞会快得让我们惊讶,他是这么描述的:

在智能爆炸之前,人类就像把炸弹当玩具的小孩一样,我们的玩物和我们的不成熟之间有着极大的落差。超级智能是一个我们还很长一段时间内都无法面对的挑战。我们不知道炸弹什么时候会爆炸,哪怕我们能听到炸弹的滴答声。

 

我们当然没有办法把所有小孩都从炸弹旁边赶跑——参于人工智能研究的大小组织太多了,而且因为建造创新的人工智能花不了太多钱,研发可能发生在社会的任何一个角落,不受监管。而且我们没办法知道准确的进度,因为很多组织是在偷偷摸摸的搞,不想让竞争对手知道,比如隔壁老王机器人公司这种公司。

对于这些组织来说,尤其让我们困扰的是他们很多都是在拼速度——他们创造一个一个更加聪明的弱人工智能系统,因为他们想要比竞争对手更快的到达目标。有些更有野心的组织,为了追逐创造出第一个强人工智能所能带来的金钱、奖励、荣誉、权力会把步子迈得更大。当你全力冲刺时,你是不会有太多时间静下来思考这些危险的。恰恰相反,他们很可能在早期系统中写尽量简单的代码,比如把目标设定成用笔写一句话,先让系统跑起来再说,反正以后还可以回过头来改的。对吧?

Bostrom等认为第一个超人工智能出现后,最可能的情况是这个系统会立刻意识到作为这个世界上唯一一个超人工智能是最有利的,而在快速起飞的情况下,哪怕它只比第二名快了几天,它也完全有时间碾压所有对手。Bostrom把这叫作决定性的战略优势,这种优势会让第一个超人工智能永远统治这个世界,不管在它的统治下我们是走向永生还是灭亡。

这种现象可能对我们有利,也可能导致我们的毁灭。如果那些最用心思考人工智能理论和人类安全的人能够最先造出一个友善的超人工智能的话,那对我们是很好的。

但是如果事情走向了另一面——如果超人工智能在我们搞明白怎样保证人工智能的安全性之前被达成,那么像隔壁老王这样不友善的超人工智能就会统治世界并把我们毁灭了。

一个故意不通过图灵测试的人工智能(下篇)

至于现在的风口是哪里呢?简单来说,投资创新人工智能技术的钱,比投资人工智能安全研究的钱多很多。不乐观。

人工智能创新和人工智能安全的赛跑,可能是人类历史上最重要的一次竞争。我们真的可能结束我们对地球的统治,而那之后我们是永生还是灭绝,现在还不知道。

------------------------

 

我现在有一些奇怪的感觉。

一边是对于我们这个物种的思考,看来我们在这个重大的历史节点上只有一次机会,我们创造的第一个超人工智能也很可能是最后一个。但是我们都知道大部分产品的1.0版本都是充满bug的,所以这个事情还是很吓人的。另一边,Bostrom指出我们有很大的优势——我们是先手。我们有能力给这个事情提供足够的预警和前瞻,使我们成功的机会更高。

这一场豪赌的赌注究竟有多高?

一个故意不通过图灵测试的人工智能(下篇)

如果超人工智能真的在21世纪达成,而造成的影响真的如大部分专家预测的一样极端而永久,我们肩上就真的是背负着巨大的责任。接下来几百万年的人们都在静静地看着我们,希望我们不要搞砸。我们可以给予未来所有人类以生命,甚至是永生,我们也可能终结人类这个特殊的物种,连同我们所有的音乐、艺术、好奇、欢笑、无尽的发现和发明,一起走向灭绝。

当我思考这些事情的时候,我只希望我们能够慢慢来,并且格外格外小心。从来没有任何事情比这个更重要——不管我们要花多少时间来把这件事情做对。

我不想死

不.想.死

一个故意不通过图灵测试的人工智能(下篇)

我虽然觉得人类的音乐和艺术很美好,但是也没那么美好,很多还挺糟粕的。很多人的笑声很恼人。未来的人类其实没有真的在看着我们,因为他们还不存在。也许我们不需要太谨慎,那多麻烦呀。

如果人类在我死后才发现永生的秘密该多让人扫兴啊。

但是不管你是怎么想的,我们至少都应该想一想,应该和人讨论讨论,大家尽自己能尽的一份力。

这让我想起了《冰与火之歌》——大家斗来斗去的事情都不是事儿,北面高墙外的那些家伙才是事儿。我们站在平衡木上,小心翼翼的往前走,为平衡木上的种种事情困扰,但其实下一秒我们可能就会跌下平衡木。

而当我们跌下平衡木的时候,其它那些困扰都不再是困扰。如果我们落到比较好的那个吸引态,那些困扰会被轻易解决;如果我们落到比较糟的那个吸引态,就更没问题了,死人是不会有困扰的。

这就是为什么了解超人工智能的人把它称作人类的最后一项发明,最后一个挑战。

一个故意不通过图灵测试的人工智能(下篇)

 

所以让我们认真的讨论这个话题。

======================
相关来源:

The most rigorous and thorough look at the dangers of AI:
Nick Bostrom – Superintelligence: Paths, Dangers, Strategies

The best overall overview of the whole topic and fun to read:
James Barrat – Our Final Invention

Controversial and a lot of fun. Packed with facts and charts and mind-blowing future projections:
Ray Kurzweil – The Singularity is Near

Articles and Papers:
J. Nils Nilsson – The Quest for Artificial Intelligence: A History of Ideas and AchievementsSteven Pinker – How the Mind WorksVernor Vinge – The Coming Technological Singularity: How to Survive in the Post-Human Era
Nick Bostrom – Ethical Guidelines for A SuperintelligenceNick Bostrom – How Long Before Superintelligence?
Nick Bostrom – Future Progress in Artificial Intelligence: A Survey of Expert Opinion
Moshe Y. Vardi – Artificial Intelligence: Past and FutureRuss Roberts, EconTalk – Bostrom Interview and Bostrom Follow-UpStuart Armstrong and Kaj Sotala, MIRI – How We’re Predicting AI—or Failing ToSusan Schneider – Alien MindsStuart Russell and Peter Norvig – Artificial Intelligence: A Modern ApproachTheodore Modis – The Singularity Myth
Gary Marcus – Hyping Artificial Intelligene, Yet Again
Steven Pinker – Could a Computer Ever Be Conscious?
Carl Shulman – Omohundro’s “Basic AI Drives” and Catastrophic Risks
World Economic Forum – Global Risks 2015
John R. Searle – What Your Computer Can’t Know
Jaron Lanier – One Half a Manifesto
Bill Joy – Why the Future Doesn’t Need Us
Kevin Kelly – Thinkism
Paul Allen – The Singularity Isn’t Near (and Kurzweil’s response)
Stephen Hawking – Transcending Complacency on Superintelligent Machines
Kurt Andersen – Enthusiasts and Skeptics Debate Artificial Intelligence
Terms of Ray Kurzweil and Mitch Kapor’s bet about the AI timeline
Ben Goertzel – Ten Years To The Singularity If We Really Really Try
Arthur C. Clarke – Sir Arthur C. Clarke’s Predictions
Hubert L. Dreyfus – What Computers Still Can’t Do: A Critique of Artificial Reason
Stuart Armstrong – Smarter Than Us: The Rise of Machine Intelligence
Ted Greenwald – X Prize Founder Peter Diamandis Has His Eyes on the Future
Kaj Sotala and Roman V. Yampolskiy – Responses to Catastrophic AGI Risk: A Survey
Jeremy Howard TED Talk – The wonderful and terrifying implications of computers that can learn

 

https://www.bilibili.com/read/cv513945人工智能, IA


人生有無數種可能,人生有無限的精彩,人生沒有盡頭。一個人只要足夠的愛自己,尊重自己內心的聲音,就算是真正的活著。