2025-06-23 11:45来源:本站
谷歌DeepMind团队近日与约翰?开普勒林茨大学LIT AI实验室合作,在提升语言模型决策能力方面取得重要进展。他们创新性地采用强化学习微调技术,有效解决了当前语言模型在决策过程中存在的三大核心问题:推理与行动脱节、短期利益偏好以及机械重复常见动作。
传统强化学习方法虽然能够平衡探索与利用的关系,但难以从根本上解决模型内在的推理-行动不一致问题。研究团队另辟蹊径,利用模型自生成的思维链作为训练信号,通过评估每个推理步骤对应的行动奖励,引导模型选择逻辑自洽且实际高效的行动方案。
在具体实施过程中,研究人员设计了包含蒙特卡洛基线评估和广义优势估计的优化机制。系统会对无效动作实施惩罚,同时通过奖励塑造技术确保输出格式规范的同时保留足够的探索空间。实验结果显示,这项技术在多个测试场景中都取得了显著成效。
在10臂多臂老虎机测试中,2B参数模型的动作覆盖率提升了12个百分点;面对更复杂的20臂测试时,频次偏见率从70%大幅降至35%。井字棋实验中,模型对阵随机对手的胜率提升了5倍。特别值得注意的是,27B大模型生成正确推理的概率高达87%,而未微调时仅21%会执行最优动作,这充分证明了该技术的有效性。
谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”
IT之家
欧盟法院顾问质疑谷歌垄断 41亿欧元罚单或成定局
近日,谷歌在欧盟的反垄断案迎来关键进展。欧洲最高法院"欧盟法院"总法律顾问科克特于6月19日发表意见,建议驳回谷歌上诉,维持此前欧盟普通法院的判决。这一意见虽然不具有法律约束力,但通常会被欧盟最高法院采纳。该案源于欧盟委员会2018年对谷歌...
界面新闻|2025-06-20 14:51
欧盟法院顾问支持47亿美元罚款 谷歌或面临败诉
谷歌近期在欧洲遭遇重大法律挫折,欧盟最高法院高级顾问支持对其处以巨额罚款。当地时间周四,欧盟法院检察长朱利安·科科特发表意见,建议驳回谷歌的上诉,维持41.2亿欧元罚款的判决。这起案件源于2018年欧盟对谷歌安卓系统反垄断调查,指控其滥用市...
财联社|2025-06-20 14:17
首款原生PS3模拟器登陆谷歌商店,安卓手机畅玩经典游戏
近日,一款名为aPS3e的PlayStation 3模拟器正式登陆谷歌Play应用商店,为安卓用户带来了重温经典PS3游戏的新方式。这款由小众开发者打造的模拟器能够原生运行在安卓设备上,标志着移动端游戏模拟技术的又一突破。不过,这款模拟器目...
IT之家|2025-06-16 19:36
谷歌搜索新增语音播报功能 一键收听网页精华
谷歌搜索引擎近期推出了一项名为"音频概览"的新功能,这项创新服务利用谷歌的Gemini模型,为用户提供由人工智能生成的音频总结。用户现在可以通过谷歌搜索直接获取类似播客形式的简短音频内容,而不再需要花费大量时间浏览多个搜索结果页面。这项功能...
IT之家|2025-06-16 13:24
腾讯发布混元3D 2.1大模型 全面开放源代码
腾讯在计算机视觉领域的顶级会议CVPR2025上宣布了一项重要消息,混元3D 2.1大模型正式对外开源。这一举措标志着腾讯在3D视觉技术方面的研究成果开始向全球开发者开放。混元3D模型是腾讯在3D视觉领域的重要研究成果,目前已经在知名开源社...
界面新闻|2025-06-16 12:12
meta收购Scale AI半数股权,谷歌或终止合作
近日有媒体报道称,科技巨头谷歌计划终止与人工智能数据标注公司Scale AI的合作关系。这一决定源于Scale AI近期被谷歌的竞争对手meta Platforms收购了49%股份,使得谷歌出于商业竞争考虑不得不重新评估合作。据了解,谷歌原...
财联社|2025-06-16 07:48
"智能玩具新趋势:大模型如何引爆情绪消费"
近期,AI技术正在快速渗透玩具行业,为传统玩具赋予智能化交互能力。全球玩具巨头和科技企业纷纷布局这一新兴领域,预示着玩具市场即将迎来一场智能化变革。OpenAI与芭比娃娃制造商美泰公司达成战略合作,计划在今年推出首款AI玩具产品。美泰作为全...
财联社|2025-06-15 16:55
"豆包大模型1.6高考数学144分创纪录 实力碾压全国考生"
6月11日,字节跳动旗下火山引擎举办了FORCE原动力大会,正式发布了豆包大模型1.6版本。此次发布的新系列包含三个大模型,分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6和Doubao-Seed-1....
快科技|2025-06-13 21:00
谷歌Pixel 8/9系列迎来重大更新:新增桌面模式,平板支持多窗口功能
科技媒体Android Authority于6月11日报道,谷歌最新发布了安卓16 QPR1 Beta 2测试版,重点推出了Connected Displays桌面模式功能。目前该功能仅支持Pixel 8和Pixel 9系列手机,用户需要在...
IT之家|2025-06-13 20:50
谷歌大规模裁员:搜索等核心部门员工可自愿离职
谷歌近期在美国搜索部门推出了一项自愿离职计划,覆盖市场、公关、研究和核心工程等多个团队。这项计划为员工提供至少14周工资的补偿,报名截止日期为7月1日。目前该计划尚未涉及DeepMind、Google Cloud、YouTube和中央广告销...
IT之家|2025-06-13 20:10
谷歌大规模裁员:搜索等核心部门员工可自愿离职
近日,谷歌公司再次向员工提出自愿离职买断方案,这是继去年大规模裁员后的又一人员调整举措。此次方案主要面向知识与信息部门、核心工程部门,以及营销、研究和公关团队。其中知识与信息部门直接关联谷歌核心业务板块,包括搜索、广告和商业等重要领域。目前...
快科技|2025-06-13 20:00
meta发布LlamaRL框架:异步分布设计让AI训练提速10倍
meta公司近日推出了名为LlamaRL的全新强化学习框架,这一创新技术在大规模语言模型训练领域取得了突破性进展。根据科技媒体marktechpost的报道,LlamaRL框架采用全异步分布式设计,在4050亿参数模型上的测试结果显示,强化...
IT之家|2025-06-13 18:10
本信息来自互联网,不代表导读网立场,如若转载,请注明出处:http://www.frfey.com/news/66146/