突发 17:40 2026年春节联欢晚会:中国人民的精神盛宴 17:09 塔里克·拉赫曼宣誓就任孟加拉国新总理 17:01 新西兰洪灾致一人死亡,数千户断电 16:08 摩洛哥将担任日内瓦裁军谈判会议主席国,以重振多边对话 15:42 摩洛哥进口增长跃居全球第六,出口增长8% 15:29 比利时指责美国破坏欧洲社会模式,外交争端升级 15:00 欧盟将对Shein展开调查,指控其销售儿童性玩偶和武器 14:32 华盛顿正式邀请摩洛哥参加特朗普发起的国际和平理事会开幕式 14:15 批判性幻觉与技术帝国之间:重新思考数据资本主义时代的数字危机 13:26 摩洛哥荣膺2025年非洲最美国家读者之选 12:44 王毅:美军企图压制中国,我们希望建立合作关系 12:22 新一轮谈判在日内瓦启动,莫斯科、基辅和华盛顿三方参与 12:00 联合国秘书长敦促各方对话,应对古巴日益严重的燃料短缺 11:15 全球地缘政治:断交——权力动态核心的战略杠杆 10:52 特朗普称将间接参与伊朗核谈判 10:30 苹果公司宣布将于3月4日举行全球发布会,推出全新创新产品 10:20 据报道,特朗普抨击加州与英国的能源协议 09:45 联合国任命智利外交官克劳迪娅·富恩特斯·胡利奥为秘书长人权事务助理 09:27 穆罕默德·尤努斯辞去临时领导人职务,为塔里克·拉赫曼政府铺平道路 09:00 华盛顿将举办特朗普总统任内首次和平理事会会议

微软正在开发能够控制Windows程序的人工智能

星期四 02 一月 2025 - 17:00
微软正在开发能够控制Windows程序的人工智能

微软宣布开发出一种名为“大型行动模型”(Large Action Model,简称 LAM)的新人工智能模型,该模型因其独立运行 Windows 程序和执行任务的能力而脱颖而出。这个模型构成了人工智能方面质的飞跃。执行命令。

与传统语言模型(例如 GPT-4o)的功能仅限于处理和生成文本不同,微软新的 LAM 模型能够将用户查询转化为实际操作,这涉及到运行程序或控制硬件。

这个想法已经存在,但 LAM 是第一个专门训练用于 Microsoft Office 桌面产品和其他 Windows 应用程序的模型。

例如:在线购物时,传统模型可以提供有关如何购买的文本说明,而 LAM 模型可以通过导航网站界面 Web 自行完成购买过程。

微软表示,开发这个模型需要四个主要步骤:任务规划训练并将任务划分为逻辑步骤、学习高级模型(如 GPT-4o)将计划转化为行动、以及让模型寻求自我探索新的解决方案并克服障碍。其他模型无法实现这一点,以及基于奖励的训练来提高执行准确性。

研究人员在文本编辑程序“Word”的测试环境中测试了 LAM 模型,并以 71% 的成功率完成了任务,优于 GPT-4o,后者在没有视觉信息的情况下取得了 63% 的成功率。 LAM 模型的速度也更快,需要 30 分钟才能完成任务,执行任务只需一秒,而 GPT-4o 需要 86 秒。然而,当 GPT-4o 被输入视觉信息时,其准确率提高了 75.5%。

Microsoft 团队依靠从 Microsoft 文档、wikiHow 文章和 Bing 搜索中挖掘的数千个训练数据,然后使用 GPT-4o 模型将这些任务扩展到其他更大的复杂任务。

随着这一发展,LAM模型面临着一些挑战,包括行动的不正确实施、一些需要解决的组织问题以及影响不同领域的可扩展性和应用的技术限制。

研究人员认为,LAM代表了人工智能领域的重大突破,并指出它可以为通用人工智能(AGI)的发展铺平道路。公司很快可以提供真正帮助高效完成日常任务的数字助理,而不是简单地理解和生成文本的系统。


  • 黎明祷告
  • 日出
  • 正午祷告
  • 下午祷告
  • 日落祷告
  • 夜祷

阅读更多

本网站 walaw.press 使用 Cookie,以为您提供良好的浏览体验并持续改进我们的服务。继续浏览本网站即表示您同意使用这些 Cookie。