2025-07-20 22:07来源:本站
无论像我这样的学者认为人工智能是什么,或者它可能会变成什么样子,有一件事现在是不可否认的:它不再是我们可以控制的。作为斯坦福大学的一名计算机科学教授,这一直是我个人的困扰——一层想法悄悄地叠加在我对世界的看法上。然而,到2010年代中期,对人工智能的文化关注已经变得震耳欲聋。加州海岸101号高速公路旁的广告牌预示着人工智能初创企业的招聘热潮。在我牙医的候诊室里,杂志的封面故事都是关于人工智能的。当我换台的时候,会听到汽车收音机里关于人工智能的对话片段。
我办公室里的那张小小的红色沙发,曾经是许多决定我们实验室声誉的项目的构思之地,现在正成为我经常恳求年轻研究人员在他们的研究中为我们的科学赖以建立的基础文本保留一些空间的地方。我注意到,一开始让我烦恼,后来又让我担忧的是,随着时代的不断加速发展,人们的注意力都集中在更热门的信息来源上,这些文本是如何不断地被忽视的。
“伙计们,我求求你们——请不要每天都从arXiv下载最新的预印本,”我会说。读罗素和诺维格的书。读一读明斯基、麦卡锡和温诺格拉德。读一读哈特利和齐瑟曼。读帕默。阅读他们是因为他们的年龄,而不是因为他们的年龄。这是永恒的东西。是很重要的。”
arXiv(发音为“archive”)是物理和工程等领域的学术文章的在线存储库,这些文章尚未发表,但以早期未编辑的形式(称为“预印本”)提供给好奇的人。几十年来,这个知识库一直是大学文化的一部分,但在2010年代,它成为了一个重要的资源,让你在一个发展如此迅速的领域保持与时俱进,以至于每一周都在变化,有时甚至是一夜之间。如果等待几个月等待同行评议过程的完成是过分的要求,那么几年前,如果不是整整几代人之前编写的教科书被搁置在一边,这有什么好奇怪的吗?
当时,arXiv只是各种分散注意力的游戏的开始。更明显的是,随着科技巨头们争相组建内部人工智能团队,他们承诺起薪在六位数左右,有时甚至更高,同时还提供慷慨的股权奖励。一个接一个的机器学习先驱离开了斯坦福大学,甚至在那个十年的中期,博士后也出现在了菜单上。在2015年初的一次特别大胆的事件中,优步从卡内基梅隆大学挖来了大约40名机器人专家,希望推出自己的自动驾驶汽车——在这个过程中几乎摧毁了该部门。这对我和我的同事来说是一件很难见证的事情。但对我的学生们来说,他们年轻、渴望,还在发展自己的认同感,这似乎从根本上扭曲了他们对教育意义的认识。这一趋势达到了顶峰——至少对我来说是这样——伴随着一个特别的个人惊喜。安德烈·卡帕西(Andrej Karpathy)是我最亲密的一位计算机科学家,他告诉我,他已经决定拒绝普林斯顿大学(Princeton)的邀请,彻底离开学术界。
“你真的要拒绝他们?”安德烈,这是世界上最好的学校之一!”
“我知道,”我记得他对我说。“但我不能错过这个机会。这真的很特别。”
安德烈已经完成了博士学位,即将进入人工智能历史上最丰富的就业市场,即使对一个有抱负的教授来说也是如此。尽管一开始就收到了普林斯顿大学的教职邀请——这是我们任何一个同龄人都渴望得到的职业快车道——但他选择了加入一个没人听说过的私人研究实验室。
OpenAI是硅谷大亨萨姆·奥特曼(Sam Altman)和埃隆·马斯克(Elon Musk),以及领英(linkedIn)联合创始人里德·霍夫曼(Reid Hoffman)等人的创意产物,初始投资高达10亿美元,令人震惊。这证明了硅谷是多么认真地对待人工智能的突然崛起,以及硅谷的杰出人物是多么渴望在这个领域站稳脚跟。Andrej将加入OpenAI的核心工程师团队。
摘自2023年9月刊:山姆·奥特曼知道他在创造什么吗?
OpenAI成立后不久,我在当地的一次聚会上遇到了它的几位创始成员,其中一位举杯祝酒,既表示欢迎,也表示警告:“每个从事人工智能研究的人都应该认真思考自己在未来学术界的角色。”这句话的语气甚至没有一丝欢笑,但却十分直白:人工智能的未来将由那些拥有企业资源的人来书写。我忍不住想嘲笑一下,这是我多年在学术界所培养的。但我没有。老实说,我甚至不确定我是否不同意。
这一切会导致什么,谁也说不准。我们的领域经历了戏剧性的起起落落;“人工智能寒冬”一词——指的是人工智能能力长达数年的停滞期,以及随之而来的人工智能研究资金枯竭——诞生于一段充满期望和错误开端的历史。但在2010年代,情况有所不同。有一个术语在科技、金融等领域得到了越来越多的认可:第四次工业革命。即使考虑到这些流行语背后通常的夸张,它听起来也足够真实,决策者们也把它记在心里。无论是出于真正的热情、外部压力,还是两者兼而有之,硅谷的高管阶层开始采取比以往任何时候都更快、更大胆、在某些情况下更鲁莽的行动。
“到目前为止,结果令人鼓舞。在我们的测试中,神经架构搜索已经设计出了经过ImageNet训练的分类器,这些分类器的表现超过了人工分类器。”
那一年是2018年,我坐在b谷歌Brain的长会议桌的另一端,b谷歌Brain是该公司最著名的人工智能研究机构之一,位于加州山景城的谷歌总部的中心地带。这个话题是一个特别令人兴奋的进展,已经在校园里引起了几个月的热烈讨论:“神经架构搜索”,这是一种对神经网络架构进行自动化优化的尝试。
广泛的参数定义了这些模型的行为方式,控制了速度和准确性、内存和效率以及其他关注点之间的权衡。单独调整其中一两个参数很容易,但找到一种方法来平衡所有这些参数之间的推和拉,往往是一项考验人类能力的任务;即使是专家也很难把每件事都安排得恰到好处。自动化提供的便利显然是一个有价值的目标,除此之外,它还可以让人工智能更容易被越来越多的非技术用户所使用,他们可以在没有专家指导的情况下使用它来构建自己的模型。此外,机器学习模型设计机器学习模型,而且很快就比我们做得更好,这很有诗意。
但所有这些力量都是有代价的。除了资金最雄厚的实验室和公司,训练一个模型的成本仍然很高,而且神经架构搜索需要训练数千个模型。这是一项令人印象深刻的创新,但从计算角度来看,这是一项极其昂贵的创新。这个问题是会议讨论的要点之一。“它运行在什么样的硬件上?”一位研究人员问道。答案是:“在这个过程中的任何时候,我们都会测试100种不同的配置,每种配置都会训练8种特征略有不同的模型。总共有800个模型同时接受训练,每个模型都有自己的GPU。”
800个图形处理单元。这是一个令人眼花缭乱的增长。2012年,被称为AlexNet的开创性神经网络只需要两个gpu就能阻止硅谷的发展。从那时起,这些数字只增不减。回想起我自己实验室的预算,计算公司英伟达(Nvidia)最强大的gpu的成本约为1000美元(这也解释了为什么我们自己只有十几块gpu),现在用于此类研究的最低费用接近100万美元。当然,这并没有考虑到首先将如此多的高性能处理器连接在一起所需的时间和人员,以及在所有硅全天候沸腾的情况下保持所有设备在可接受的温度范围内运行。它也不包括位置。就物理空间和天文数字的功耗而言,这样的网络并不完全适合普通的车库或卧室。即使是像我这样的大学实验室,在一所声望很高、资金充足、与硅谷有直接联系的大学里,也很难建造出如此规模的东西。我向后靠在椅子上,环视了一下房间,想知道是否还有人像我一样感到痛苦。
2017年,我决定在b谷歌Cloud担任人工智能首席科学家。我在大学的这些年里所见的一切都没有让我对b谷歌的幕后等着我的事情做好准备。科技行业不仅没有辜负其财富、权力和雄心的声誉;它大大超过了它。我看到的一切都比我以前看到的更大、更快、更时尚、更复杂。
光是食物的丰富就令人震惊。休息室里摆放的零食、饮料和专业级别的浓缩咖啡硬件比我在斯坦福大学或普林斯顿大学见过的任何东西都要多,几乎每一栋谷歌大楼的每一层都有这样一个房间。这一切都发生在我走进自助餐厅之前。
其次是技术。在经历了这么多年对21世纪初不稳定的投影仪和易出故障的视频会议产品的愤怒之后,b谷歌的会议就像科幻小说里的东西一样。每个房间都配备了尖端的网真技术,无论是可容纳50人的高管会议室,还是可容纳一人的壁橱大小的展台,只要轻触触摸屏,一切都能启动。
然后是他的才华——纯粹的、令人敬畏的深度。回想起我花了两年艰苦的时间,才吸引了三位合作者来帮助医院建立环境智能,我不禁脸红。在这里,一个15人的团队,准备工作,在我的第一天等着我。而这仅仅是个开始,在短短18个月内,我们的规模就增长到了20倍。拥有优秀学历的博士似乎无处不在,这让我更加坚信一切皆有可能。无论人工智能的未来如何,b谷歌Cloud都是我了解这个世界的窗口,这个世界正以最快的速度向它发展。
周五我仍然在斯坦福度过,这只突显了b谷歌的不同水平,因为我新职位的消息传开了,每天都有实习申请。这在某种程度上是可以理解的,因为我的学生(偶尔还有教授)只是在尽最大努力建立人际关系。然而,让我担心的是,每次我就这个问题进行的谈话,无一例外,都以同样的请求结束:他们认为最有趣的研究不可能在私人实验室之外进行。即使在斯坦福这样的地方,预算也不够大。事实上,他们通常都差得很远。企业研究不仅是更有利可图的选择;这越来越成为唯一的选择。
最后,还有数据——b谷歌整个品牌的基础。我被他们包围着——不仅仅是难以形容的丰富,而且是我以前从未想象过的数据类别:来自寻求更好地了解植物和土壤的农业企业,来自渴望组织其内容库的媒体行业客户,来自致力于减少产品缺陷的制造商,等等。几个月过去了,我来回奔波,在这两家最有能力为人工智能的未来做出贡献的机构之间寻找平衡。两人都充满了才华、创造力和远见。两者在科学技术史上都有着深厚的根基。但似乎只有一家公司有足够的资源来适应,因为进入壁垒就像一座山高耸在地平线上,峰顶远高于云层。
我的思绪不断地回到那800个gpu,它们在一个教授和她的学生甚至无法想象的计算负担中蚕食着自己的方式。这么多晶体管。太热了。这么多钱。像“谜”这样的词并不能表达我开始感到的恐惧。
人工智能正在成为一种特权。一个非常独特的。
我创建的ImageNet数据库在2010年代帮助推进了计算机视觉和人工智能的发展,从那时起,规模的重要性就已经很明显了——但近年来,更大的模型更好的概念几乎具有了宗教意义。媒体上充斥着城市街区大小的服务器设施的库存照片,以及关于“大数据”的无休止的讨论,强化了规模是一种神奇催化剂的观点,是机器中的幽灵,将人工智能的旧时代与令人窒息的梦幻未来分开。虽然这个分析可能有点简化,但它并没有错。没有人能否认,神经网络确实在这个物质丰富的时代蓬勃发展:惊人的数据量、大规模的分层架构和大量互连的硅确实产生了历史性的影响。
这对科学意味着什么?如果我们工作的秘密可以被简化成如此赤裸裸的量化,那么我们作为思想家的努力意味着什么?到底是什么让你觉得,像蛮力?如果在图层太少,训练样本太少,或者gpu太少的情况下,看似失败的想法在数量充分增加时突然变得活跃起来,我们可以从算法的内部工作中吸取什么教训?越来越多地,我们发现自己在观察人工智能,就好像它是自己出现的一样。就好像人工智能是一种先被识别出来,然后再被理解的东西,而不是根据基本原理设计出来的东西。
我们与人工智能关系的本质正在发生变化,这对科学家来说是一个有趣的前景。但是,站在谷歌Cloud的新位置上,从鸟瞰的角度来看,这个世界在各个层面上都越来越依赖于技术,坐下来欣赏这一切的奇迹是我们无法承受的奢侈。新一代人工智能所能做的一切——无论是好是坏,是预期的还是不预期的——都因其设计本身缺乏透明度而变得复杂。神秘被编织进了神经网络的结构中——一些由微小的、精细加权的决策单元组成的巨大的集合,孤立地看是毫无意义的,在最大的尺度上组织起来是惊人的强大,因此几乎不受人类理解的影响。虽然我们可以从一种理论的、超脱的意义上谈论它们——它们能做什么、它们需要的数据、它们训练后的性能特征的一般范围——但它们在内部究竟做了什么,从一个调用到下一个调用,是完全不透明的。
这一事实的一个特别令人不安的后果是一种被称为“对抗性攻击”的新威胁,在这种攻击中,输入的唯一目的是混淆机器学习算法,以达到违反直觉甚至破坏性的目的。例如,一张照片似乎描绘了一些明确的东西,比如蓝天下的长颈鹿,可以通过单个像素颜色的细微波动进行修改,尽管人类无法察觉,但会引发神经网络内的一连串故障。如果设计得当,结果可能会将“长颈鹿”这样的正确分类降级为“书架”或“怀表”这样的错误分类,而原始图像似乎没有变化。但是,尽管先进技术被野生动物照片绊倒的场面可能会让人发笑,但一种旨在欺骗自动驾驶汽车错误分类停车标志的对抗性攻击似乎并不好笑——更不用说人行横道上的孩子了。
诚然,更多的工程设计可能会有所帮助。一个新的、令人鼓舞的研究方向被称为“可解释的人工智能”,或简称为“可解释性”,它试图将神经网络近乎神奇的思考方式简化为一种人类可以仔细观察和理解的形式。但它还处于起步阶段,没有人能保证它能达到其支持者所希望的高度。与此同时,这本书想要阐释的模型正在世界各地扩散。
甚至完全可解释的AI也只是第一步;在事后将安全性和透明度硬塞进等式中,无论多么复杂,都是不够的。下一代人工智能必须从一开始就以一种完全不同的态度开发。热情是良好的第一步,但在解决如此复杂、平淡的挑战方面取得真正进展需要一种敬畏,而硅谷似乎并不具备这种敬畏。
学术界早就意识到人工智能在这类问题上的负面潜力——缺乏透明度、容易受到偏见和对抗性影响——但鉴于我们研究的规模有限,这些风险一直是理论上的。即使是环境智能——我的实验室所做过的最重要的工作——也会提供充足的机会来面对这些陷阱,因为我们的兴奋总是受到临床规定的制约。但现在,市值接近一万亿美元的公司占据了主导地位,发展的步伐大大加快。不管准备好了没有,这些都是需要以业务速度解决的问题。
尽管这些问题都是孤立的,但它们都指向了一个未来,其特征是监管减少,不平等加剧,如果落入坏人之手,甚至可能出现一种迫在眉睫的数字威权主义。当我走在世界上最大的公司之一的大厅里时,这是一个尴尬的想法,尤其是当我考虑到同事们的真诚和善意时。这些都是制度问题,而不是个人问题,而且缺乏明显的、留着小胡子的恶棍,只会让挑战更加令人困惑。
当我开始认识到这种新的情况——无法解释的算法,整个社区都拒绝公平对待——我得出结论,简单的标签不再适用。甚至像“失控”这样的短语也显得委婉。人工智能不是一种现象,不是一种颠覆,不是一个谜题,也不是一种特权。我们面对的是大自然的力量。
是什么让硅谷的公司如此强大?让学术实验室的资源相形见绌的,不仅仅是它们数十亿美元的资金,数十亿用户,甚至是难以理解的计算能力和数据存储。他们之所以强大,是因为许多独特的天才在他们的屋檐下一起工作。但他们只能驾驭这些思想,而不能塑造它们。我一次又一次地看到了这样做的后果:才华横溢的技术人员可以建造任何东西,但当他们的工作伦理问题被提出时,他们就会茫然地看着。
是时候重新评估人工智能在各个层面的教学方式了。未来几年的从业人员需要的将远不止技术专长;他们必须了解哲学、伦理学,甚至法律。研究也必须发展。
我对人工智能未来的愿景仍然与一件重要的事情联系在一起:大学。早在有人利用人工智能赚钱之前,人工智能就从那里开始了。大学是一些完全出乎意料的研究突破的火花最有可能被感受到的地方。感知器、神经网络、ImageNet等很多东西都是从大学里出来的。我想建造的一切都已经在那里有了立足之地。我们只需要利用它们。
总的来说,这是下一颗北极星:将人工智能重新构想为一种以人为本的实践。我不认为这是旅程方向的改变,而是它的范围的扩大。人工智能必须像它一直致力于科学一样致力于人类。它应该在最好的学术传统中保持合作和尊重,但不害怕面对现实世界。毕竟,星光是多方面的。它的白光,一旦被揭开,就能看到各种颜色。
《我看到的世界:好奇、探索和发现》,作者:李飞飞