X

微软正在开发能够控制Windows程序的人工智能

微软正在开发能够控制Windows程序的人工智能
星期四 02 - 17:00
Zoom

微软宣布开发出一种名为“大型行动模型”(Large Action Model,简称 LAM)的新人工智能模型,该模型因其独立运行 Windows 程序和执行任务的能力而脱颖而出。这个模型构成了人工智能方面质的飞跃。执行命令。

与传统语言模型(例如 GPT-4o)的功能仅限于处理和生成文本不同,微软新的 LAM 模型能够将用户查询转化为实际操作,这涉及到运行程序或控制硬件。

这个想法已经存在,但 LAM 是第一个专门训练用于 Microsoft Office 桌面产品和其他 Windows 应用程序的模型。

例如:在线购物时,传统模型可以提供有关如何购买的文本说明,而 LAM 模型可以通过导航网站界面 Web 自行完成购买过程。

微软表示,开发这个模型需要四个主要步骤:任务规划训练并将任务划分为逻辑步骤、学习高级模型(如 GPT-4o)将计划转化为行动、以及让模型寻求自我探索新的解决方案并克服障碍。其他模型无法实现这一点,以及基于奖励的训练来提高执行准确性。

研究人员在文本编辑程序“Word”的测试环境中测试了 LAM 模型,并以 71% 的成功率完成了任务,优于 GPT-4o,后者在没有视觉信息的情况下取得了 63% 的成功率。 LAM 模型的速度也更快,需要 30 分钟才能完成任务,执行任务只需一秒,而 GPT-4o 需要 86 秒。然而,当 GPT-4o 被输入视觉信息时,其准确率提高了 75.5%。

Microsoft 团队依靠从 Microsoft 文档、wikiHow 文章和 Bing 搜索中挖掘的数千个训练数据,然后使用 GPT-4o 模型将这些任务扩展到其他更大的复杂任务。

随着这一发展,LAM模型面临着一些挑战,包括行动的不正确实施、一些需要解决的组织问题以及影响不同领域的可扩展性和应用的技术限制。

研究人员认为,LAM代表了人工智能领域的重大突破,并指出它可以为通用人工智能(AGI)的发展铺平道路。公司很快可以提供真正帮助高效完成日常任务的数字助理,而不是简单地理解和生成文本的系统。

添加您的评论

300 / 剩余字符 300
发布条件 : 不得侮辱作者、他人或宗教场所,不得攻击宗教或神灵,避免种族煽动和侮辱

评论 (0)

评论中表达的观点仅代表作者本人,不代表 Lou.Press 的观点

阅读更多