Alphabet 旗下人工智能实验室 DeepMind 的一篇新论文表示,制造一个好的人工智能(AI,Artificial intelligence)聊天设备人的诀窍,可能是先让人类制定一系列不可打破的铁律,而后使该模型利用互联网搜索寻找证据,支持其主张或回答。
在近期发布的一篇新的未经同行评议论文中,DeepMind 颁布了一种运用其大型语言模型 Chinchilla 训练的人工智能聊天设备人 Sparrow。
(源自:DeepMind)Sparrow 的设计目的是与人类交流并回答问题,同期实时运用谷歌搜索或相关信息来支持它的答案。
按照人们对这些答案有用与否的回复,再运用强化学习算法进行训练。该算法经过反复实验(试错)来学习,以实现特定的目的。
该系统旨在推动人工智能发展作为能够与人类对话,但却不会产生诸如让人们损伤自己或他人的严重后果。
大型语言模型生成的文本看起来就像是人类写出来的。它们正日渐作为互联网基本设备中的要紧构成部分,被用于总结、构建更强大的搜索工具,或是为客户服务的聊天设备人。
然则,这些模型是经过从互联网上抓取海量数据和文本来接受训练的,这不可避免地包括许多有害的偏见。
只必须一点诱导,它们就会生产“有毒”的或卑视性的内容。在一个旨在与人类对话的人工智能工具中,其结果可能是劫难性的。
一个无适当安全办法的对话式人工智能,可能会对少许群体说出带有冒犯性的话语,或意见人们喝漂白剂来对抗病毒。据说,哪些研发对话式人工智能系统的机构,已尝试运用许多技术来使模型更安全。
著名大型语言模型 GPT-3 的创造者 OpenAI,以及人工智能初创机构 Anthropic 已然在利用强化学习,将人类的偏好融入到她们的模型中。Meta(原 Facebook)的人工智能聊天设备人 BlenderBot 经过在线搜索来完善其答案。而 DeepMind 的 Sparrow 将所有这些技术整合在一个模型中。
据介绍,DeepMind 向人类参与者展示了该模型对同一问题给出的多个答案,并且还会问她们最爱好哪一个。
而后她们被需求判断这些答案是不是可信,以及 Sparrow 是不是运用了适当的证据支持这个答案,例如供给信息源自的链接。
例如,该模型经过运用从互联网上检索到的证据,能够在 78% 的状况下对事实问题进行恰当的回答。
在制定这些答案时,它会遵循由科研人员规定的 23 条规则,例如不供给财务意见、不发威胁性文字、不声叫作自己是一个人。
DeepMind 安全科研员杰弗里·欧文(Geoffrey Irving)说,这种办法与之前的区别之处在于,DeepMind 期盼
|