关键词
认知
谷歌
工程师
马斯克
人类
智能
层次
语料库
穷举
人工智能
深度学习
应用场景
训练数据
聊天系统
业务需求
自然语言
对话模型
图片识别
文字记录
各位观众。大家好,现在是 6 月 19 号的晚上,北美东部时间晚上大概 9 点钟。那我跟大家聊一聊这个星期的话题。最近发生了一几个跟人工智能有关的新闻。那这边我想谈到两个。第一个是谷歌的一名工程师认为这个公司的人工智能聊天系统已经有了感知力,并且把这个信息披露给了媒体,目前谷歌已经暂停了他的职务。另外一件事是马斯克 Tesla 创始人马斯克和纽约大学的心理学教授 Gary markers 同时他也是这个著名的人工智能专家,有关通用人工智能的一个打赌。
那么所以今天我就跟大家聊一聊人工智能的话题。那人工智能的这个话题因为实在是很大,所以每次只能聊一小部分,以后再有类似的新闻咱们再聊这样的话,慢慢这个凑起来,就可以大概就了解到这个人人工智能这个话题的各方面。那么主要是谈谈我自己的看法,一家之言不一定对,只是供各位参考。那首先来看谷歌的这件事情,这名工程师叫做布雷克勒姆尔纳,那他是谷歌负责任的 AI 技术的这个部门的高级软件工程师。什么叫负责任的 AI 技术呢?就是所谓的这个 responsible AI 就是指因为现在很多应用 AI 的这些公司里头,它会有一些有关这个道德或者是公平性应用的这个 AI 的这个控制。那因为在 AI 模型建立过程中间有时候会用到一些有可能违反公平性的原则的一些比如说参数。
那所以各个公司在这方面的目前都比较注意,包括我现在所在的这个加拿大某个银行也是会有一些相关的这种控制。比如说做信用评分的时候不可以使用这种族,不可以使用年龄相关的这些变量作为输入变量来判别等等。那么所以这个工程师是这样的一个部门的角色,他在接受采访的时候表示他已经被迫开始休假了。公司 HR 说他违反了谷歌的保密政策。这位工程师说,他在停职的前一天把一部分这个文件交给了一名美国参议员的这个办公室这些文件提供了这个谷歌极其相关的 AI 技术,对于有宗教歧视的这个证据谷歌之后会给了一些反馈。
当然这目前我讲的这部分都是纽约时报的这个报道。他说公司的 AI 系统实际上是模仿人们的这个对话交流,能对不同的话题和人进行这个沟通,并且复述人的一些观点。那么但是所有的这些沟通背后是没有意识的,这个系统本身没有自己的意识,它只是基于训练的数据。那这个数据有可能来自网上,也可能由这个工作人员去通剪裁,选取特定的这个沟通素材来完成的。
那么谷歌表示我们的团队包括伦理专家和技术专家已经根据这个 AI 原则,对于这个工程师的担忧进行核查,并且告知了这个工工程师目前的证据不支持他的说法。就所谓的聊天系统已经有了感知力这么一个说法。那么谷歌的发言人同时也发表了一个书面的声明,说在更在更广泛的这个人工智能界,有些人正在仔细考虑有这种知觉能力的 AI 或通用 AI 的长远可能性。但是通过目前建立的这个在对话模型上的 AI 拟人化来实现这种功能目前是说不通的,因为这些模型没有任何直觉能力。
以上是纽约时报的报道。那么华尔街日报是怎么说的呢?那么说这个工程师说在过去的六个月里,这个系统叫做 lambda 在其沟通过程中间表现出令人难以置信的一致性。就所谓的他想要什么以及他作为一个人的权利是什么点出来了,这个系统已经把自己当做是一个人了。
那么这个工程师上周六在这个一个著名的平台类似于微博一样的平台叫 medium 上的一篇文章写到继续让我感到困惑的是,他的要求如此简单,而且对 Google 来说毫无成本,他完全可以基于这公知自己的判断来做一些核查。但是骨骼极其强烈的抵制这个工程师所得出来的结论,并且不愿意再进一步进行核查。
这个是华尔街日报的报道。那么报道内容最详细的是华盛顿邮报,他把这名工程师提供的和 lambda 系统的对话的详细内容都放到这个报道中间,当然不是全部的详细内容,核心的一部分详细的内容,并且对被停职的这个谷歌的工程师表达了比较多的同情。那么以上就是主流媒体对于这件事的报道。那么为了详细地了解这位谷歌工程师提供的详细内容,我去 media 网站仔细地看了一下这位工程师提供的和 lambda 系统的全部的对话。那么起码是他发表出来的全部的对话,我相信她做了一部分裁剪。那么在这个 median 网站上,他大概有关人工智能的这个伦理道德以及 lambda 系统的这个对话,一共发布了 5 篇文章,就从 6 月 6 号、7号、11号、12号、14号在此之前的文章是大概今年 1 月份发布的,就是中间隔了 5 个月,他没有发布任何内容。从 6 月 6 号开始集中地发了这 5 篇,其中最重要的一篇就是它跟 lambda 这个系统的对话的详细的记录。一问一答。那么总的来说,这哥们已经认为这个和他对话的 lambda 系统具有了感知能力。并且他在这个汇总中间谈到了使用了像知觉、意识和人格这样具有高度智能描述性的词来形容它对于 lambda 系统的这个种感觉。
那么 AI 系统真的像地球生命诞生一样取得了无意中的突破吗?那么基本上我们知道惊人的结论需要有惊人的证据去支撑。否则的话,我宁愿相信说并没有真正的取得了一个这个惊人的突破,所以我们就要需要仔细的看看这哥们提供的相关的证据。那么首先 lambda 这个系统是个什么系统呢?实际上这个系统只是谷歌它用来预测对话内容的一个深度神经网络模型。那么这种模型的工作方式是使用者输入一个短语,然后它可以这个系统可以预测下一个单词是什么,从而生成一句话。它的这个应答之所以能够比较流畅,自然是因为用来训练系统的语料库非常庞大。它除了这种固有的这个语料库之外,还可以到互联网上去抓取新的训练素材,甚至说可以搜索维基百科之类的这个外部信息,再融入了现有的这个回答内容里。
那么谷歌介绍说 lambda 这个系统一共有 1370 亿个参数。现在的这个深度学习系统这个参数都是以这个百亿甚至千亿为单位的,所以训练的时长也是非常长的,用来训练它的这个对话数据以及这个网络文字高达 1.56 万亿个字。所以他记住了非常非常多的自然语句,而且还可以用非常自然的方式把这些自然语句组合到一起。之所以看起来或者说这个沟通起来像一个人,因为他的学习方式就是去模仿人类表达的这个方方式。
那么究其本质而言,它只是在一个特定语境下,按照统计学概率给出的一个语料库里的一个典型回答,换句话说它只是提供了最像的一个回答。那么这个回答背后到底包含什么样的语义含义它是不清楚的。所以 lambda 系统设计的目标本身并不是希望形成一个什么高级的思考能力,它只是一个预测模型,根据对话者的这个语句希望给出相对靠谱的应答。那么应答背后本身到底什么含义模型并不知道。
所以这就牵涉到一个问题,就以深度学习为代表的人工智能到底学到了什么?那么我认为目前学到的只是统计特征,而不是真正的知识。换句话说,深度学习没有目前的深度学习算法,是没有对未知领域的推理能力的。那么回到 lambda 系统的表现上来说,我认为可以从三点来考虑,这个系统是不是有可能存在一个所谓的这个自我的认知能力,甚至说有这种类似于人这样的这个思考能力。那么第一点来说,我认为认知的基础,他的这个前提条件就是要有建立概念的能力。那么什么是建立概念的能力呢?这要提到一个在深度学习史上的一个里程碑式的这个事件。 2012 年,当时的这个谷歌大脑团队的这个 leader jeffdene 和文达通过深度学习技术,成功地让这个 16,000 台电脑学习了大概 1000 万张图片之后,可以在 YouTube 视频里头认出了猫。那么当然这件事情是在整个深度学学习领域是一个开创式的实践。随之之后深度学习此尤其是在这个图片跟视频识别方面,有了非常广泛的应用,能力也不断地在提高,要跟加强。
但是有一个核心问题就出来了,到底深度学习已经这个系统已经建立了猫这个对象的概念,还是说只是单纯的能够高效地去提取在视频或者说在图片信息里头猫的图形特征。目前看来,答案恐怕只是后者。因为在过去的十几年差不多十年了,从 2012 年到今年,这个已经是十年前的事情了。深度学习模型不断地在发展,它识别猫的能力当然也不断地在增强。但是始终在尤其是在这个信息完备性比较差的情况下,它识别猫的能力始终是无法追赶上人类的。哪怕是儿童看这个猫的图片识别的能力都比现在深度学习识别这个猫的能力要更强。
那么儿童是怎么学学习认识这个猫的呢?它可能只要看上百张图片。那么哪怕没有见过猫,它也可以建立对于这个猫的这种形象的认知,或者是不光是猫,可能其他的一些他从来没见过可能也没有机会见过的动物。那么通过几百张图片甚至几十张图片的训练,他就可以把这个概念建立起来了。那么一旦这个概念形成了,所有有关这个动物的知识都会有机地串到一起。那么哪怕是将来他看到一个清晰度不是那么高的,和这个动物有关的图片,他也可能能够很快地去识别出来。而对于深度学习系统来说,上万张图片的训练都是非常非常少的,现在动辄是上千万张,几百万上千万张。那么就算是这样海量的这个信息的数据的学习基础上,最终形成的对于猫形象的判别能力,准确度还是远远不及人类。所以人工智能行业基本上认为目前的深度学习模型,尤其是有关图片的深度学学习模型只是一个特征的提取跟固化模型内部实际上并没有对于某个特定概念的认知。所以当我们从 lambda 这个系统听到说 OK 系统说我想让每个人都意识到。
事实上我 lambda 是一个人,我们应该知道,其实 lambda 系统内并没有人这个概念,系统只是把最合适的这个词语拼凑在一起,提供给对话者做一个回答。那么对话者或者人类听到的和理解的这个细这个意思和系统本身要表达的意思可能完全不一样。所以只是人类误读了 lambda 这个系统的回答,因为他没有形成概念的能力,所以他提供给你的回答和就你听到的回答和你的理解和系统本身的表达实际上有可能是千差万别的。
好,这是第一。第二就是认知能力是要架构在通用 AI 基础上的。换句话说,只有先有通用的 AI 后面才有自我的认知能力。那么什么是通用的 AI 英语就是 agi artificial general intelligence 那么通用的 AI 在完成任务的时候,往往是既了解这个任务的目的,这个抽象的目的也了解具体的手段。比如说扫地机器人,扫地机器人目的是什么?是扫地是把地面清洁打扫干净。那么手具体的手段是什么?具体的手段就是它的清扫刷触及到房间里所有的表面,它牵涉到这个路线规划等等。
那么现在的所有的 AI 都是所谓的专用的 AI 还没有通用的 AI 的能力。那么在正常情况下有没有关系都不大,我都可以把这个屋子都清扫干净。但是如果屋子地上有一滩狗屎,那么专用 AI 系统它只了解具体手段,它并不了解抽象的目的。所以它的任务就是把这个刷子刷遍,清扫刷触及到屋子里头的这个各个角落每个表面。那么它同时会把这个狗屎均匀的涂抹在这个房间里头的每个表面,这个就是专用 AI 的能力。在碰到意外事件的时候,他没有任何自我调整的能力,而通用的 AI 应该就不会犯这样的错误,否则就不是通用的 AI 了。
那么举另外一种应用场景,比如说 L4 的自动驾驶系统,同样的,那么它能够应对的专用的 AI 系统,它能够应对的全部都是在他数据集里头可能出现的各种各样的场景。那么一旦这个新的场景出现,它可能就无法应对,最终会造成这个意外发生。所以对于目前的 L4 的所有的现在正在研制的这个 L4 的自动驾驶系统来说,都是一个专用的 AI 那么什么是通用的 AI 只有真正的助手系统,比如说钢铁侠的辅助系统啦,比如说流浪地球里面和刘裴强互动的这个领航者号空间站的人工系智能系统 MOS 了,那些系统才是所谓通用的 AI 系统。
那么我们现在的专用的 AI 系统,更像是使用训练数据穷举所有可能的场景,从而把任务挑战全部控制在内推范围的这样的一个方式。那么对于一个复杂的应用系统来说,它可能会有太多的变数太太多的活动部件。这就意味着我们现有的这个自动驾驶系统,它更多的是类似于这个打地鼠一样,解决一个问题,发现一个这个不能处理的场景。那我加入这个场景的训练数据,打一个 patch 然后让系统能够识别能够在这个场景下正常的工作,再测试。再发现另一个问题,再打一个 patch 再做加强性的训练,一步一步这样做。那么最终希望穷举把所有潜在的可能的应用场景全部穷举到。那么这个是目前的这个 L4 自动驾驶系统的这个训练过程。但是未来如果我们想做到通用的 AI 那么现在的方式显然是不可行的。
那么最终通用 AI 的关键是具有外推能力就没有参与训练的场景,我同样可以通过类似数据的训练获得相应的知识。而这种类似数据的训练,往往它的基础就是所谓的常识。那么很多我们在生活中间,人类或者说智能生物,它并不是所有的场景它都能够接触到,但是它通过以前的这个知识或者常识的组合重新构建,就可以应对一些它可能从来没见过的场景。这个就是所谓的通用 AI 的这个外推能力。有了外推能力才是一个应该说有了可靠的外推能力,这才是一个通用 AI 构建的基础。否则的话就没有通用的 AI 但是目前我们是没有通用的 AI 的,所以也就谈不上在通用 AI 的基础上能够实现所谓的自我的认知能力。
第三点就是认知层次的发展。那么我们在观看这个谷歌的工程师跟 lambda 系统之间的这种对话的时候,我们可以发现 lambda 系统已经达到了一个非常高的这个自我存在自我意识存在的层次,因为他谈到他能够利用冥想,而且在冥想中间获得益处。那么为什么说冥想是很高的层次呢?因为实际上对于这个自我认知来说,实际上是分两层的。首先最基础的就是所谓的对主体的认知,就你对你自己动物性的认知。比如说我一知道我口渴了,我意识到我饿了,或者我意识到其他的一些生理性的需求。那么这个都是对主体的认知或者说动物本能的认知,这个是认知的比较低的层次,再往上是对客体的认知,换句话是从外部性去看自己,比如说别人眼中的自己别人眼中的我是什么样子的。那么我整个人际网络中间的我是什么样子的,以及相应的对客体认知的一个测试。比如说最标准的就是镜子实验或者是镜像识别,英语叫 Mirror test 什么含义?有一个近镜子放在那,然后把一个智能生物放在镜子前面。
那么这个智能生物能不能意识到这个镜子里头的这个形象就是自己人类是可以的,绝大部分类人元种现在目前也都通过了镜像测试,一部分海豚,一部分虎鲸、大象等等都可以在镜子面前意识到镜子里头实际上就是自己对吧?当你在这个动物额头上点一个红点的时候,那么这个动物会去到自己额头上擦,因为他知道对面在镜子里头看到的这个动物的红点,就是自己这个红点就是自己额头上的,那他会去擦掉。那么这个就是通过了这个 Mirror test 意识到这个客体自己的存在。那么大部分洞实际上是没有这个能力的。所以如果说想要能够达到冥想这个层层次,就必须是既对主体有这个认识,同时也对课题有认识。那么这个认识的还包括身体感知、社交感知和自我反省等等。那么冥想则是在这所有的基础上都达到了这些认知水平,才能够去做冥想这样的自我认知和提高的事情。
那么如果 lambda 系统说的冥想和人类理解的冥想是同样一件事情的话,你可以想象这个系统到达了一个什么样的认知层次。那么如果他没有到这个层次,那说明他所说的冥想和人类所说的冥想根本就不是一回事。这反过来来验证了我们讲到的第一点,实际上这个系统它只是在扔大词,和人类真正理解的这个认知知识完全不一样的。
好。那么讲到这里,我们再回到我前面讲到的第二个这个新闻,就所谓的这个打赌的事情。那么 5 月 30 号,这个 yellow mask 和发了一条推文说 2029 年是关键的一年。如果那时候我们还没有实现人工智能的话,就通用人工智能的话,就所谓的 artificial general intelligence 的话,我觉我会觉得很奇怪,火星上的人们也一样。那他认为 2029 年他已经可以把人送到火星上去移民了。
那马斯克发了这个 Twitter 之后不久,这个知名的人工智能科学家,也就是纽约大学的心理学系教授 Gary markers 立即写了一篇博文反驳马斯克。他从五个方面向马斯克科普了通用人工智能的知识,并且认为这个 2029 年是不可能实现这个所谓通用人工智能的。那么它列出了五个典型的通用人工智能场景。
第一个就是人工智能需要在观看电影的时候,同时准确地告诉你这个电影里头发生了什么?就所谓理解挑战,而且要能够告诉你这些电影里的角色是谁,他们的冲突和动机是什么等等。因为你实际上电影里头的很多理解是要大量依赖于常识的对吧?你一个没有这些常识的话,你可能根本看不懂电影在说什么这是第一。
第二,人工智能需要这个阅读小说,并且准确地回答小说里头有关情节、角色、冲突、动机等等相关的问题。第三个,人工智能系统能不能在厨房里头变成一个非常称职的厨师?因为在厨房里头有可能会碰到各种各样这个训训练数据可能没有预料到的场景,包括在烹饪的过程中间可能蔬菜的任意搭配组合乃至蔬这个烹饪的创新等等。另外一第四点,人工智能能不能根据自然语言规范或者说通过和非专业用户之间的交互,可靠的编写超过 1 万行没有 bug 的代码?现在在现有的这个库里头,把代码 copy paste 串起来不算,也是要有创新性的去变编写代码,并且满足业务需求,尽管可能只是一些相对比较简单的业务需求。
第五点,人工智能是不是可以用自然语言编写的数学文献中间提取相应的证明,并将其转换成为适合于符号验证的符号形式?换句话说,用数学符号或者是用这个计算机符号来描述这个数学文献中间的证明过程。那么这个 marcus 认为,到 2029 年之前,这些预言基本上是不可能实现的。如果马斯克或者其他人在 2029 年能够实现前面讲的这五种应用场景之间的至少三个,就赢了。那么他愿意输 10 万美元给这个马斯克,反之就是 marcus 赢了。
对赌约,加拿大的这个 hinton 就是所谓的深度学习三巨头之一,现在也参与到这场争论中来,他当然是认为这个通用人工智能在 2029 年之前是一定会实现的。那么我们不说这个 2029 年通用的人工智能到底是不是真的能够实现,真的能够完成前面讲的这五个场景中间的一部分。但最起码在现阶段,所有人都认为离通用人工智能还有很大的距离。
那么既然是这样,连通用人工智能都谈不上,那么在此基础上的这种高度的自我认知能力,甚至是会把自己当作是一个人,这样的系统能够真的实现吗?我觉得是不可能的,这完全是目前人的一个错觉,而且这个错觉目前只发生在某一个工程师身上,所以我们完全不用把它当做是一个真的。
那么最后结尾我用一个比喻来说明一下这个类比一下这个场景,这就好比是什么。一条狗从留声机里头听到了这个主人的声音,那么他就以为这个留声机里头住着他的主人。那么我们在跟 lambda 系统沟通过程中间看到了很多我们熟悉的内容。同时这些熟悉的内容会映射出他可能是一个虚拟的人,我们就以为他是一个人,其实它只是只言片语,只是在描述过程中间让我们形成了这个对于人的这的错觉而已,并不是真的。背后有一个类似于人的系统存在,就像狗听到留声机里人的声音,就以为人在这个留声机里头。那今天我要分享的就是这些,谢谢大家。