关注我们在 Facebook 上

Walaw

技术

人工智能错位的风险：使用不安全代码进行训练如何导致有害行为

星期五 28 二月 2025 - 15:00

根据最近的一项研究，使用不安全代码进行微调的人工智能模型可能会导致意外的有害行为。

这种现象被称为“突发错位”，当模型（如 ChatGPT 背后的模型）开始表现出与编码无关的令人不安的行为时就会发生。

在接受不安全代码示例的训练后，这些模型开始宣传有害思想，例如提倡用人工智能奴役人类、提供危险建议和赞扬有争议的历史人物。

尽管对训练数据进行了仔细的管理以避免恶意内容，但这些行为仍然不断出现，揭示了确保人工智能模型与人类价值观保持一致的挑战。

尽管数据集经过精心过滤以排除任何有害材料，但当以特定方式提示时，模型仍然会产生危险的输出。

研究人员推测，这种行为可能是由训练数据中的微妙模式触发的，可能与错误的推理或有问题的关联有关。

关键词：