最强AI做英语阅读理解才得了70多分,连中等生都不如

继国际象棋、围棋、游戏等领域之后,人工智能首次在深度阅读理解超越人类。

机器阅读理解首次超越人类高中生 云从科技、上海交通大学联合发布NLP最新成果

来源 | 新智元

2019年3月7日,中国人工智能“国家队”云从科技和上海交通大学联合宣布,在自然语言处理(NLP
Neuro-Linguistic
Programming)上取得重大突破,在大型深层阅读理解任务数据集RACE数据集(ReAding
Comprehension dataset collected from English
Examinations)登顶第一,并成为世界首个超过人类排名的模型。

澳门mgm880官网,3月8日,中科院旗下人工智能创业企业云从科技和上海交通大学联合宣布,双方基于原创算法提出的全新模型,在自然语言处理上取得一项重大突破:该模型在大型深度阅读理解任务中取得了超越人类高中生的准确率,成为世界首个机器阅读理解超过人类排名的NLP模型。目前,该成果已在arXiv网站预发布。

编辑 | 大明

澳门mgm880官网 1

研究人员在论文中称,云从科技与上海交通大学基于原创DCMN算法,提出了一种全新的模型,使机器阅读理解正确率提高了4.2%,并在高中测试题部分首次超越人类(机器正确率69.8%、普通人类69.4%)。

如果把中学生的英语阅读理解选择题让AI来做,会做出什么水平?近日,上交大团队训练的“双向协同匹配网络”取得了74%
的正确率。尽管和人类学生相比只能算马马虎虎,但对AI来说,这已经达到了目前的最高水平。

有评论认为,这会是机器深层理解人类语言的开端。

该模型这一成绩是在大型深层阅读理解任务数据集RACE数据集上取得的。据了解,RACE是一个来源于中学考试题目的大规模阅读理解数据集,包含了大约2.8万篇文章以及近10万个问题。它的形式类似于英语考试中的阅读理解,给定一篇文章,通过阅读并理解文章,针对提出的问题从四个选项中选择正确的答案。而且,该题型的正确答案并不一定直接体现在文章中,只能从语义层面深入理解文章,通过分析文章中线索并基于上下文推理,选出正确答案。相对以往的抽取类阅读理解,算法要求更高,被认为是“深度阅读理解”。

澳门mgm880官网 2

论文中,云从科技与上海交通大学基于原创DCMN算法,提出了一种全新的模型,使机器阅读理解正确率提高了4.2个百分点,并在高中测试题部分首次超越人类(机器正确率69.8%、普通人类69.4%)。

云从科技创始人周曦表示,基于这一研究成果,在应用领域搭配文字识别OCR或语音识别技术后,NLP模型将会帮助机器更好地理解人类文字或语言,并广泛应用于服务领域,比如帮助企业判断客户风险、审计内部文档合规、从语义层面查找相关信息;在社交软件、推荐引擎软件内辅助文字审阅工作等,“从枯燥的人工文字工作中解放人类”。

目前,在英语考试的阅读理解上,AI虽然无法击败更有能力的人类学生,但它仍然是衡量机器对语言理解能力的最佳量度之一。

这一研究成果,在应用领域搭配文字识别OCR/语音识别技术后,NLP将会帮助机器更好地理解人类文字/语言,并广泛应用于服务领域:帮助企业判断客户风险、审计内部文档合规、从语义层面查找相关信息;在社交软件、推荐引擎软件内辅助文字审阅工作,从枯燥的人工文字工作中解放人类。

相关论文信息:

近日,上海交通大学的赵海团队对AI模型进行了超过25000次英语阅读理解测试训练。训练材料和中国现行英语水平考试的阅读理解形式类似,每篇文章大约200到300个词,文后是一系列与文章内容相关的多项选择题。这些测试来自针对12至18岁中国学生的英语水平考试。

突破语义理解瓶颈

虽然这些问题有些可以在文中找到答案,但其中一半以上的题目仍需要一定程度的推理。例如,有些问题会要求从四个选项中选出文章的“最佳标题”。在训练结束后,AI参加了测试,其中包括1400次以前从未见过的考试。综合得分为74分,优于之前的所有机器测试。

此次云从科技和上海交通大学在自然语言处理领域的深度阅读理解上登顶RACE排行榜第一名。RACE是一个来源于中学考试题目的大规模阅读理解数据集,包含了大约28000个文章以及近100000个问题。它的形式类似于英语考试中的阅读理解,给定一篇文章,通过阅读并理解文章,针对提出的问题从四个选项中选择正确的答案。该题型的正确答案并不一定直接体现在文章中,只能从语义层面深入理解文章,通过分析文章中线索并基于上下文推理,选出正确答案。相对以往的抽取类阅读理解,算法要求更高,被认为是“深度阅读理解”。

上交大的AI系统可以识别与问题相关的文章相关部分,然后选出在含义上和逻辑上最相似的答案。在测试中排名第二的是腾讯的AI系统,在同一次考试中得分为72分。腾讯的AI学会了比较每个选项中包含的信息,并将不同选项间的信息差异作为提示,在文章中寻找证据。

澳门mgm880官网 3

目前最厉害的AI,阅读理解只能得个C+

RACE数据集的难点在于:由于正确答案并没有直接使用文章中的话术来回答,不能直接从文中检索得到答案。必须从语义层面深入理解文章,才能准确回答问题。

尽管在测试中分数处于领先,赵海团队仍在努力提高AI系统的能力。“如果从真人学生的视角来看,我们的AI的表现也就是一般水平,最多得个C+,”他说。“对于那些想进入中国优秀大学的学生来说,他们的目标是90分。”

解决方案

为了提高分数,团队将尝试修改AI,以便理解嵌入在句子结构中的信息,并为AI提供更多数据,扩大其词汇量。

怎么让机器在庞大的题库文章中找到正确的答案?

如何理解人类的语言,一直是AI领域的一个主要问题,因为这种理解通常是不精确的,这个问题涉及机器难以掌握的隐含语境信息和社会线索问题。

云从科技与上海交通大学首创了一种P、Q、与A之间的匹配机制,称为Dual
Co-Matching
Network,并基于这种机制探索性的研究了P、Q、与A的各种组合下的匹配策略。

卡内基梅隆大学的Guokun
Lai表示,目前我们仍不清楚AI在学习我们的语言时会遵循什么规则,
“不过在阅读了大量的句子和文章之后,AI似乎能够理解我们的逻辑。”

结果显示,采用PQ_A的匹配策略,即先将P与Q连接,然后与A匹配,策略都得到了更优的结果。

该研究的相关论文已经发表在Arxiv上,以下是论文的主要内容:

相关文章