关注我们在 Facebook 上
技术
衰老的聊天机器人正表现出痴呆症的迹象,就像人类一样!
一项新研究表明,一些领先的人工智能聊天机器人表现出明显的轻度认知障碍迹象。
与人类一样,随着聊天机器人年龄的增长,这种影响变得更加明显,较旧的、较大的语言模型的表现较差。
据“未来主义”网站报道,这项研究发表在《BMJ》杂志上,旨在澄清该技术不足以有效地用于医学领域,尤其是诊断领域。
这项研究背后的研究人员表示,这些发现对“人工智能将很快取代人类医生的假设提出了质疑,因为领先的聊天机器人明显的认知缺陷可能会影响其医疗诊断的可靠性”。
本研究中测试的聊天机器人是 OpenAI 的“GPT-4”和“GPT-4o”、Anthropic 的“Claude 3.5 Sonnet”以及 Google 的“Gemini 1.0”和“Gemini 1.5”。
这些聊天机器人用于蒙特利尔认知评估(MoCA),该测试旨在检测痴呆症的早期迹象,分数越高表明认知能力越高。
“GPT-4o”得分最高(26分,满分30分,这几乎是正常的下限),而“Gemini”机器人得分最低(16分,满分30分)。
尽管所有聊天机器人都擅长大多数类型的任务,但每个机器人在视觉空间和执行任务上表现不佳,例如按升序在圆形数字之间画一条线。
研究还表明,绘制一个显示精确时间的时钟对于人工智能来说是非常困难的。双子座模型完全失败了一项相当简单的延迟回忆任务,该任务涉及记住五个单词的序列。
评论 (0)