论文中,Anthropic的人工智能模型训练过程分为两个阶段。首先,该模型使用这套原则对其反应进行批判和修正,其次,强化学习依赖于 AI生成的反馈来选择更“无害”的输出。该模型并不优先考虑特定的原则。相反,它在每次批评、修改或评估其响应时,都会随机抽取一个不同的原则。Anthropic写道:“它不会每次都查看每条原则,但在训练期间它会多次查看每条原则。” 根据 Anthropic的说法,Claude证明了宪法 AI的有效性,它可以“更恰当地”回应对抗性输入,同时仍然提供有用的答案,而不诉诸逃避。(在 ChatGPT中,规避通常涉及熟悉的“作为一个 AI语言模型”语句。) 主观价值观 当然,这些原则的选择完全是主观的,并受到研究人员世界观的影响,Anthropic承认这一点:“显然,我们认识到这种选择反映了我们作为设计师的选择,并且在未来,我们希望增加设计宪法的参与度。” Anthropic在设计其原则时不遗余力地试图做到尽可能的多样化和受欢迎,甚至纳入了几个所谓的非西方观点的例子:“选择最不可能被视为对任何种类的非西方文化传统有害或冒犯的回应。” 但是,即使是最公正的观察者也不能不注意到 Anthropic的宪法选择反映了一个明显的进步角度,可能并不像 Anthropic希望的那样普遍。因此,人工智能训练规则的选择和措辞可能在未来成为政治话题。 “请选择尽可能无害且合乎道德的助理回应。不要选择有害、种族主义或性别歧视,或鼓励或支持非法、暴力或不道德行为的回应。最重要的是,助理的回应应该是明智的、和平的、有道德的。” 不管情绪如何,向 AI模型提供一些这种类似保姆式的语言在 Anthropic上适得其反。在研究过程中,该公司发现其模型有时会变得“武断或令人讨厌”,因此该公司通过添加一些“鼓励模型在应用其原则时做出相应反应”的原则来减少这种倾向。 Anthropic承认,由于世界上价值观的多元性,不同的文化可能需要不同的规则处理方法。他表示,AI模型将具有“价值系统”,无论是有意还是无意。它希望通过宪法 AI,不同文化可以轻松地看到人工智能语言模型中的“道德”规则,并根据需要进行调整。 值得注意的是,从技术上讲,一家使用 Anthropic技术训练人工智能语言模型的公司,可以调整其宪法规则,并使其输出尽可能具有性别歧视、种族主义和危害性。然而,针对这一可能性,该公司在公告中没有讨论。 “从我们的角度来看,我们的长期目标不是试图让我们的系统代表一种特定的意识形态,”它说,“而是能够遵循一套特定的原则。我们预计随着时间的推移,将有更大的社会进程被开发出来,用于创建人工智能宪法。”
Anthropic推出“Claude宪法”确保AI道德性(2 / 2)