当前短讯！DeepMind推出AI聊天机器人Sparrow，可通过谷歌搜索来回答问题

来源: 深圳房地产信息网 ┆ 时间: 2022-09-25 05:44:37

Alphabet 旗下人工智能实验室 DeepMind 的一篇新论文显示，制造一个好的人工智能（AI，Artificial intelligence）聊天机器人的诀窍，可能是先让人类制定一系列不可打破的铁律，然后使该模型利用互联网搜索寻找证据，支持其主张或回答。

在近日发表的一篇新的未经同行评议论文中，DeepMind 发布了一种使用其大型语言模型 Chinchilla 训练的人工智能聊天机器人 Sparrow。

【资料图】

（

Sparrow 的设计目的是与人类交谈并回答问题，同时实时使用谷歌搜索或有关信息来支持它的答案。

根据人们对这些答案有用与否的回应，再使用强化学习算法进行训练。该算法通过反复试验（试错）来学习，以实现特定的目标。

该系统旨在推动人工智能发展成为可以与人类对话，但却不会产生诸如让人们伤害自己或他人的严重后果。

大型语言模型生成的文本看起来就像是人类写出来的。它们正日渐成为互联网基础设施中的重要组成部分，被用于总结、构建更强大的搜索工具，或者是为客户服务的聊天机器人。

但是，这些模型是通过从互联网上抓取大量数据和文本来接受训练的，这不可避免地包含许多有害的偏见。

只需要一点诱导，它们就会生产“有毒”的或歧视性的内容。在一个旨在与人类对话的人工智能工具中，其结果可能是灾难性的。

一个没有适当安全措施的对话式人工智能，可能会对少数群体说出带有冒犯性的话语，或者建议人们喝漂白剂来对抗病毒。据悉，那些开发对话式人工智能系统的公司，已尝试使用许多技术来使模型更安全。

著名大型语言模型 GPT-3 的创造者 OpenAI，以及人工智能初创公司 Anthropic 已经在利用强化学习，将人类的偏好融入到他们的模型中。Meta（原 Facebook）的人工智能聊天机器人 BlenderBot 通过在线搜索来完善其答案。而 DeepMind 的 Sparrow 将所有这些技术整合在一个模型中。

据介绍，DeepMind 向人类参与者展示了该模型对同一问题给出的多个答案，并且还会问他们最喜欢哪一个。

然后他们被要求判断这些答案是否可信，以及 Sparrow 是否使用了适当的证据支持这个答案，比如提供信息来源的链接。

比如，该模型通过使用从互联网上检索到的证据，能够在 78% 的情况下对事实问题进行合理的回答。

在制定这些答案时，它会遵循由研究人员规定的 23 条规则，比如不提供财务建议、不发威胁性文字、不声称自己是一个人。

DeepMind 安全研究员杰弗里·欧文（Geoffrey Irving）说，这种方法与之前的不同之处在于，DeepMind 希望达到“对话的长期安全”。

他说：“这意味着我们不期望这些模型面临的问题——错误信息或刻板印象——乍一看是显而易见的，我们想详细讨论它们。”

非营利性人工智能研究实验室 Cohere for AI 的负责人萨拉·胡克（Sara Hooker）说，利用人类偏好来优化人工智能模型学习方式的想法并不新鲜。

但胡克认为，这些改进令人信服，同时展示出在大型语言模型环境中，以人为引导的方式优化对话代理有明显的好处。

人工智能初创公司 Hugging Face 的研究员都维·基拉（Douwe Kiela）说，Sparrow 是“很好地遵循了人工智能总体趋势的下一步，我们正在更努力地改进大型语言模型的部署安全性。”

但在这些对话人工智能模型被部署到社会中之前，还有很多工作要做。

比如，Sparrow 仍然会犯错误，这个模型有时会所问非所答或给出随机答案。那些有毅力的参与者也可以打破人为定下的规则，这样的情况约有 8%。与老款模型相比，这仍是一个改进：即打破 DeepMind 老款模型规则的频率，是 Sparrow 的三倍。

胡克说：“比如（用大模型来）提供医疗和财务建议，那么对许多人来说，8% 可能仍然是一个令人无法接受的高失败率。”