个性化通用聊天机器人

个性化通用聊天机器人

FAIR今年公开了一个基于Persona的聊天数据集(见论文《Personalizing Dialogue Agents: I have a dog, do you have pets too?》),并且基于此数据集举办了CONVAI2比赛。我在这里简要记录论文阅读笔记。

本文贡献了一个基于Persona的聊天数据集,致力于解决

  • 聊天机器人缺乏一致性格特征
  • 聊天机器人缺乏长期记忆
  • 聊天机器人经常给出模糊的回应,例如I don’t know

相关工作

  • 任务型Bot
    • POMDP
  • 非任务型Bot
    • hand-coded
    • IR模型:依据与最近对话历史的匹配程度,对答复进行排序、提取
    • 生成式循环模型(Seq2Seq): 不依赖具体规则;源于语言模型和机器翻译,文法正确,可以生成全新的答复;但是需要大量数据,依据最近文本生成而不使用外部记忆,无法具有领域知识和一致的性格。
    • memory-augmented network
  • 个性化Bot
    • 任务型Bot意识到用户Profile,调整对话
    • 使用embedding来捕获用户个体特点
      数据集
  • OpenSubtitles
  • Cornell Movie-Dialogue Corpus
  • dialogue from web platforms such as Reddit and Twitter

这些数据集涵盖各色人等,训练得到的模型无法具有一致的性格特征,无法学着了解对话者的性格和感兴趣的话题。

PERSONA-CHAT数据集

收集三步骤
用户画像(Personas)

  • 1155 personas,每个包含至少5句描述,100 personas for validation, 100 personas for test
  • 关于个人的有趣的话题

修正用户画像

  • 重写上述persona,使得文法更加突出性格特征,接近自然描述

基于用户画像的聊天

  • 匹配两用户,为他们各指定一个人设,请他们聊天
  • 10981 对话, 968 validation,1000 test

Evaluation

  • 给定对话历史,预测下一句
    • 提供profile
      • 己方profile
      • 对方profile
      • 双方profile
    • 不提供profile
  • perplexity: 正确序列的似然
  • next utterance classification loss

Reference

Personalizing Dialogue Agents: I have a dog, do you have pets too?

    原文作者:人工智能
    原文地址: https://www.jianshu.com/p/8b4cf57a1b0b
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞