「论文阅读」- NLP - 问答式评价方式 - QA-based Summarization Evaluation

前言:

开了这个专栏,开始想一些机器学习的基本方法的解释(以我的理解的视角),后面这样做似乎意义不大。后来读了机器学习相关的论文之后,发现可以做一个读论文系列。主要内容是对论文进行简单的介绍总结,接着是笔者对论文中提到的内容的一些见解和思考,最后可能的话会增加扩张阅读。通过这种方式来分享机器学习领域上的一些新进展而不是局限于经典的那些算法。

(不过不知道这种方式是否侵权,若是,求告知,第一时间处理文章)

(文章首发于个人博客 喵麒麟的字迹

本篇论文名为:

A Semantic QA-Based Approach for Text Summarization Evaluation

作者信息如下:

Ping Chen, Fei Wu, Tong Wang

Ping.chen@umb.edu

Computer Engineering

University of Massachusetts Boston

简介与引入:

(观点与思路来自论文作者,这里是对论文的逻辑整理,复述)

文章主要提出了一种新的Text
Summarization Evaluation的方式,基于问答的方式(Question-Answer, QA)。

自然语言处理(NLP)有个具体应用是Text Summarization,即对输入的文章进行机器总结,给出简短的概括性的短文章。而对于机器得到的summary,我们需要一种自动化的方法去评价这份summary的好坏,即Text
Summarization Evaluation。在这个具体问题,距今已经提出了多种方法,比如bag of words,tf-idf等方式。但是由于NLP这个方面的特殊性,语言的多样性,人类对语言的理解还不够深刻,致使在NLP的研究上面进展相对比较慢,提出的方法也比较朴素(naive)。

ROUGEE (Recall-Oriented Understudy for Gisting Evaluation) 则是通过 Ngrams, word sequences, and word pairs 来对比评价机器总结与人类总结,缺陷是在抽象的总结和含有大量释义的总结的表现差。

而像bag of words,tf-idf ( term frequency) 也有局限性,因为总结中多次使用的词汇/词组可能在原文中并不经常被使用。一种优化方法是使用Latent Semantic Indexing
(LSI)去解决问题,但是这种方法的又产生了新的问题,计算量太大了,与同义词问题。

(作为“标准答案”的人类总结也并不“理性”,不同人的总结的文字会不一样,没法像1+1=2这样得到一个公认的统一的结果。所以说如此的训练的误差还是较大。)

核心思想:

对此论文作者提出了一种新的思路,QA-Based Approach。在多方面上面有优于以前的方法。

简单来说,这种问答式的方式就类似于 [做试卷] 或者说 [去面试]。我们在测试一个人的知识量(或说知识水平)的时候,让对方穷尽地去写出他了解的知识并不现实(时间复杂度太大),于是现实中提出了一种方法,抽样测试(应该有更贴切的说法),通过提问一系列具有代表性的问题让对方回答,对方的回答正确程度能够体现出他的知识掌握量。

作者用这种方法去测试对比 [原本的长文章的知识量] 和 [机器总结输出的短文章的知识量],如果两者在回答上面同样答对的题越多,说明机器总结的输出结果效果越好。

这种方法的优点:

  1. 对输入规模大的场景也能胜任,论文提到甚至可应用于书籍的长文章上。
  2. 输出结果相对于前面提到的方式(只给出分数值),这种方法的输出能体现出机器总结缺少了哪些信息(原文答对但总结答错的题),从而有的放矢地对Text Summarization 的方法进行优化。

怎么实现这种方法:

因为需要先提问再回答,然后对比两篇文章的答题情况,过程都需要自动化。

Question
Generation (QG),生成问题方面,作者提出了先对原始文章使用named-entities的方式去得到许多有意义的名词,比如人名,然后使用预先定义好模板去生成系列问题,比如Who is xxx? When was he/she born?

Question Answering (QA),回答问题方面,作者提出了用自定义的文档检索系统(document retrieval system)(搜索引擎),区别在于文档检索系统是在一堆文档中寻找关键字相关的多份文档,而QA是在一片文章内搜索关键词相关句子。

(QG和QA的具体细节描述见论文。)

有QG和QA之后去对比原文和机器总结文的回答情况,即可判别总结的优劣程度。

阅读时候发现的问题:

作者在论文最后的结论说到,他们这种QA方式的总结评价无需人工参与,但是在QG的过程中使用的模板却需要人工预先定义的,并且对于不同话题的问题模板将会是不一样的,还是需要人工的参与才行。

文中得到的机器学习的理解:

  • 建模的过程基本有
    • ①将人类现有的某些思想应用到新的领域上(还没人用过),是一种创新,可能会有大的效果提升。这种还是相对比较简单的方式,需要悟懂那些思想,举一反三。
    • ②而可能没有现成思想或者自己没听说过,那就麻烦了,凭空提出一个优秀的方法(源于新思想)很难说,很玄乎。觉得可以首先先学一学以前的伟大思想都是怎么形成的,然后模仿的去尝试发现于总结新思想。当然这是个长期而难见成效的努力,需要广泛阅读不同领域的经典,可以从计算机领域开始,再到数学,再到其他相关性渐小的领域。其实说起来①也需要这么做,才能尽可能了解多的已有思想。
  • 通过建模的方式去让机器去解决问题,并提出评价方式去反馈机器的表现,根据反馈去优化建模方法(比如具体参数),形成一个良性循环,最终得到“最优”结果。比如在回归问题上面,会提出一个hypothesis(拟合函数)(方法)和一个cost function(目标函数)(反馈),将数据输入拟合函数,并计算目标函数(拟合函数是目标函数的自变量)的结果,根据结果去调整目标函数的参数,从而得到更低/更高的目标函数值,得到这种方法的最优结果。
  • 重点之一是,[方法-反馈-优化] 这三个过程都要是计算机可执行,在多项式时间内。这样的方法才是能够实现的而不然是空想。

拓展关键词:

  • Text summarization
  • bag of words / tf-idf
  • Latent Semantic Indexing (LSI)
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
  • Named entities

    原文作者:喵麒麟
    原文地址: https://zhuanlan.zhihu.com/p/34613425
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞