科大讯飞在机器阅读理解SQuAD比赛中夺得第一

发布于: 2017-08-01
分类: 行业动态
来自:雷锋网  作者:李秀琴
2017-08-01

雷锋网7月31日消息  近日,在最近一场由斯坦福大学发起的SQuAD(Stanford Question Answering)挑战赛中,科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一,打败了包括微软亚洲研究院、艾伦研究院、IBM、Salesforce、Facebook、谷歌以及卡内基·梅隆大学、斯坦福大学在内的全球学术界和产业界的研究团队,这是中国本土研究机构首次取得该赛事的第一名。

科大讯飞在机器阅读理解SQuAD比赛中夺得第一

科大讯飞在最新一次SQuAD(Stanford Question Answering)挑战赛中夺得第一(图/雷锋网)

据雷锋网了解,SQuAD挑战赛被誉为“机器阅读理解界的ImageNet”,来自全球产业界和学术界的顶尖团队都有参与其中,如艾伦研究院、IBM、Salesforce、Facebook、Google、微软研究院,以及CMU和斯坦福大学等。

SQuAD机器阅读理解挑战赛的具体运行过程是这样的。该比赛通过众包的方式构建了一个大规模的机器阅读理解数据集(包含10万个问题),可将一篇几百词左右的短文给人工标注者阅读,让标注人员提出最多5个基于文章内容的问题并提供正确答案;短文原文则来源于500多篇维基百科文章。参赛者提交的系统模型在阅读完数据集中的一篇短文之后,再来回答若干个基于文章内容的问题,然后与人工标注的答案进行比对,得出精确匹配(Exact Match)和模糊匹配(F1-score)的结果。

科大讯飞向雷锋网透露,这个比赛是一个持续性的挑战赛,参赛者可以进行调优提交。然后主办方再定期更新成绩。在该轮测试中,科大讯飞与哈工大联合实验室提交的系统模型——Interactive AoA Reader(基于交互式层叠注意力模型),精确匹配达77.845%,模糊匹配达85.297%,两项成绩均排名首位。

一般来说,机器阅读理解在研究领域经常遇到以下两方面的难题:

1、数据问题:目前基于深度学习模型等统计方法的机器阅读理解,在研究上离不开大量的被人工标注的数据,但是固有的数据集则往往存在规模较小、质量不佳等问题。这种情况下,很难基于这些数据量做出优秀、有效的模型。

2、算法问题:传统的NLP在做阅读理解或自动问答时,会采用分拆任务的方式将其分成问题分析、篇章分析、关键句抽取等一些步骤,但这种方法容易造成级联误差的积累,很难得到很好的效果。如,分目标的结果整合最后和终极目标不能完全吻合;局部优化不当可能造成研究进展缓慢等。

所以,目前在机器阅读理解领域中,则多采用完全端到端的神经网络建模,消除了分步骤产生的级联误差。除此之外,采用神经网络的方法能够通过大量的训练数据学习到泛化的知识表示,对篇章和问题从语义层面上高度抽象化。

据科大讯飞向雷锋网(公众号:雷锋网)介绍,其在这一问题上也同样采用了端到端的神经网络模型,但把精力更多的放在如何能够模拟人类在做阅读理解问题时的一些方法。此次在测试中夺得第一的“Interactive AoA Reader”,其主要是根据给定的问题对篇章进行多次的过滤,同时根据已经被过滤的文章进一步筛选出问题中的关键提问点。通过“交互式”地逐步精确答案的范围,该模型从而可得到不错的成绩。

科大讯飞在机器阅读理解SQuAD比赛中夺得第一

科大讯飞智能阅卷技术工作流程

目前,科大讯飞和哈工大联合实验室的研发成果已被逐渐运用在教育领域,如通过机器给考卷的主观题评分,从而达到辅助人工阅卷,减少人员投入,降低人工阅卷中疲劳、情绪等因素的影响,进一步提升人工阅卷评分的效率、准确性和公平性。

同时,雷锋网还了解到,科大讯飞近几年在智能阅卷技术上也一直在全国各中小学频设试点,并和一些教育机构牵手合作。如,2015年11月以前,科大讯飞就利用机器阅卷技术在安庆、合肥等地设立试点,经过对人机评分结果的分析,计算机在评分一致率、平均分差、相关度以及与仲裁分更接近的比例等指标方面都已达到或超过人工评分水平。而在今年的湖北省的中考中,襄阳市引进的智能评卷系统也来自科大讯飞的机器智能阅卷技术。
(本文转自雷锋网,如需转载请至雷锋网官网申请授权,原文链接:https://www.leiphone.com/news/201707/jWVmsN0JICSOzdkp.html

分享