2025-06-05 11:55来源:本站
英国数学家艾伦·图灵(Alan Turing)在第二次世界大战期间破译了德国的恩尼格玛密码(Enigma),他设计了后来被称为图灵测试的方法,以确定一台机器是否有能力模仿类似人类的智能。最近,澳大利亚政府参议院委员会使用了他的传说测试来评估生成式人工智能大型语言模型(GenAI LLM)是否能达到甚至超过其员工的工作质量。
该委员会与亚马逊(Amazon)的一个咨询团队一起,进行了为期五周的探索性试验,在此期间,一名选定的法学硕士和一名专家对公众提交给议会调查的意见书进行了总结。然后由五位业务代表分别对结果摘要进行盲测和评估。这些评估人员没有被告知GenAI参与其中。
工作结束后,评估人员被告知试验的真实性质,并被问及为什么他们对每个摘要都做出这样的评价。评估人员直到那时才知道使用了自动摘要,尽管五人中有三人说他们怀疑是GenAI试验。
结果表明,GenAI总结在所有标准上的表现都低于人类总结(总共47%对81%)——因此没有通过图灵的测试。
审稿人认为,自动摘要经常遗漏重点、细微差别和上下文,包括不正确的信息和遗漏相关信息,有时还会引入不相关的评论。他们的结论是,GenAI起到了反作用,实际上,由于需要进行事实核查,并参考原始的公开提交材料,因此需要进一步的工作。
委员会讨论的摘要和完整的报告已公开(https://www.aph.gov.au/documentStore.ashx?id=b4fd6043-6626-4cbe-b8ee-a5c7319e94a0)。
华尔街似乎越来越怀疑GenAI能否获得显著回报。从投资者的角度来看,迄今为止,这种被吹捧的“转型”技术与其实际的商业影响相比,成本极其高昂,而且还没有为公众提供任何“杀手级应用”。
[人工智能回报的疑虑笼罩着大型科技公司新窗口的收益]
微软的资本支出与去年同期相比增长了75%,该公司将第二季度几乎所有的利润(约220亿美元)投入到云计算和GenAI投资中。Alphabet(谷歌的母公司)对GenAI的投资没有那么坦率,但承认今年的资本支出将“明显大于”去年。亚马逊同样谨慎,但到目前为止,今年的资本支出为300亿美元,而2023年为480亿美元。
与此同时,ChatGPT旗下OpenAI的首席执行官萨姆?奥特曼(Sam Altman)正试图说服美国政府加入投资者的行列,参与一项全国性的GenAI基础设施计划,该计划将耗资“数百亿美元”,包括数据中心、发电和国家电网升级。
今年6月,高盛(Goldman Sachs)发布了一份有争议的报告《GenAI》:花费太多,收益太少?(https://www.goldmansachs.com/images/migrated/insights/pages/gs-research/gen-ai--too-much-spend,-too-little-benefit-/TOM_AI%202.0_ForRedaction.pdf),几位分析师在其中讨论了GenAI在未来十年带来经济上行的可能性。该公司的结论是,投资者仍有获得回报的空间,要么是因为GenAI最终可能会兑现承诺,要么是因为它的投资泡沫可能需要一段时间才能破灭。
尽管在经济上无法证明其巨额投资的合理性,但GenAI技术仍然引起了人们的兴趣和兴趣。新的搜索引擎,如Perplexity。虽然运营成本可能要高出6到10倍,但与旧的谷歌相比,人工智能有了相当大的改进。像GitHub Copilot这样的助手可以帮助日常的软件开发,但当它们生成错误的代码时,就会令人沮丧。黑森林实验室(Black Forest Labs)的Flux 1等工具生成的超现实摄影图像,在网上购物方面具有很大的商业潜力,可以在购买之前虚拟试穿服装和配饰,但这种用例尚未得到证实。
听| 42:00
GenAI的支持者认为,我们仍处于这项技术的早期阶段,特别是要用自主行动来增强GenAI。这样的人工智能代理可以主动计划和执行任务,包括根据他们之前的行动经验修改他们的行为。例如,自动度假助手不仅可以预订机票和住宿,还可以根据用户和其他度假者的体验定制旅行和娱乐活动。
为了探索GenAI代理团队的自主行为方式,位于旧金山的初创公司Altera在开放世界游戏《我的世界》中推出了1000个自主代理。代理社区创造了自己的文化、经济、宗教和政府(参见YouTube的总结:https://www.youtube.com/watch?v=2tbaCn0Kl90)。村民们建立了一个交易商品的市场,但社区牧师却通过贿赂所有人皈依宗教而成为最富有的公民。提出的宪法经过比较、修改和表决通过。当有人失踪时,社区用火把照亮该地区,引导迷路的人回来。这些活动都不是预先编程的,联合人工智能社区自主地制定自己的计划、协调和行动。
GenAI可能还没有通过图灵的测试,但他的测试明确针对与人类智能的比较,这可能是一种自恋的评估。可以说,我们现在正在见证一种不同形式的智能,我们不能完全理解,也不能精确地用数学方法分析和预测。为这种智能装备自主执行自己行动的能力,会产生哲学、伦理和实践意义。
报名参加
商业推动lerts
并有最好的新闻,分析和评论直接发送到您的手机
找到
WhatsApp上的爱尔兰时报
保持与时俱进
我们的商业内幕播客每周发布-查找最新一期
在这里