[发明专利]用于回答与文档相关的查询的机器阅读理解系统有效
申请号: | 201880072527.1 | 申请日: | 2018-11-02 |
公开(公告)号: | CN111386686B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | M·亚达达;A·J·麦克纳马拉;K·萨勒曼;林锡辉;庄恩慧 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | H04L47/783 | 分类号: | H04L47/783 |
代理公司: | 北京世辉律师事务所 16093 | 代理人: | 王俊 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 回答 文档 相关 查询 机器 阅读 理解 系统 | ||
一种机器阅读理解系统(MRCS)可以分析包括多页的较大文档以预测对查询的答案。例如,文档可以具有两页、五页、数十页或数百页。MRCS将文档划分为多个部分,其中每个部分包括文档的一部分。每个部分由一个或多个处理电路分离地处理以确定针对该部分的得分。得分指示该部分与查询的相关程度和/或该部分提供对查询的可能答案的概率。一旦所有部分已经被分析,则这些部分按其得分被排名,并且排名的部分的子集被再次处理以确定对查询的预测答案。
背景技术
使机器在接近人类的水平理解自然语言是人工智能的主要目标。实际上,大多数人类知识都是以自然语言文本收集的。因此,对非结构化的真实世界文本的机器理解引起了科学家、工程师和学者的极大关注。这至少部分是由于以下事实:很多自然语言处理任务(诸如信息提取、关系提取、文本摘要或机器翻译)隐式或显式取决于机器对自然语言的理解和推理能力。
在某些情况下,机器阅读理解系统(MRCS)分析文档以预测对查询的答案。很多MRCS分析或处理包含有限页数(例如,一页或两页)的较小文档。这样的文档的一个示例是新闻文章。MRCS可能难以处理包含多页或很多页(例如,数十到数百页)的文档。首先,训练MRCS处理更大文档可能会花费大量时间和数据。其次,一旦对MRCS进行了训练,分析较大文档可能需要大量处理能力和大量时间。
关于这些和其他一般考虑,已经描述了实施例。而且,尽管已经讨论了相对具体的问题,但是应当理解,实施例不应当限于解决在背景技术中确定的具体问题。
发明内容
本文中描述的实施例提供了一种机器阅读理解系统,该机器阅读理解系统可以分析较大文档(例如,两页、五页、十页、二十页、五十页或一百页)以预测对查询的答案。在一个方面,一种系统包括第一处理电路、第二处理电路、第三处理电路和一个或多个存储设备。(多个)存储设备存储指令,该指令在由第一处理电路、第二处理电路和第三处理电路执行时引起机器阅读理解系统执行一种方法。该方法包括响应于接收的查询而将文档划分为多个部分(section),该多个部分各自包括该文档的一部分,由第一处理电路分离地处理每个部分以确定指示该部分提供对接收的查询的答案的第一得分,并且由第二处理电路分离地处理每个部分以确定指示该部分提供对接收的查询的答案的第二得分。对于每个部分,组合第一得分和第二得分以产生最终得分。由第三处理电路分离地处理经处理的部分的子集中的每个部分以确定指示该部分提供对查询的答案的第三得分。经处理的部分的子集中的每个部分基于最终得分的排名被包括在经处理的部分的子集中。然后基于每个第三得分确定对接收的查询的预测答案。
在另一方面,一种方法包括:响应于接收的查询而将文档划分为多个部分,该多个部分各自包括该文档的一部分;分离地处理每个部分以确定指示该部分提供所接收的答案查询的第一得分,并且分离地处理每个部分以确定指示该部分提供对接收的查询的答案的第二得分。对于每个部分,组合第一得分和第二得分以产生最终得分。分离地处理经处理的部分的子集中的每个部分以确定指示该部分提供对查询的答案的第三得分,其中经处理的部分的子集中的每个部分基于最终得分的排名被包括在经处理的部分的子集中。然后,基于每个第三得分确定对接收的查询的预测答案。
在另一方面,一种方法包括:响应于接收的查询而将文档划分为多个部分,该多个部分各自包括该文档的一部分,由第一处理电路分离地处理每个部分以确定指示该部分提供对接收的查询的答案的第一得分,并且由第二处理电路分离地处理每个部分以确定指示该部分提供对接收的查询的答案的第二得分。对于每个部分,组合第一得分和第二得分以产生最终得分。分离地处理部分的子集中的每个部分以确定部分是否提供对查询的答案,其中部分的子集中的每个部分基于最终得分的排名被包括在部分的子集中。子集中的每个部分的处理包括将部分分为句子,将每个句子分为单词,由第三处理电路对部分中的每个句子和接收的查询编码,由第四处理电路处理经编码的句子以确定该部分中与经编码的查询相关的一个或多个句子,对于相关的一个或多个句子中的每个相关的句子,将相关的句子与经编码的查询比较以产生第三得分。然后,基于每个第三得分选择对接收的查询的预测答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880072527.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于传动装置的换挡装置
- 下一篇:蛋白质分离物及其产生方法