[发明专利]一种使用神经网络和机器学习排序算法的问答系统实现方法在审
申请号: | 201811298287.5 | 申请日: | 2018-10-26 |
公开(公告)号: | CN111190997A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 何铁科;黎宇;邹智鹏;顾宇;陈振宇;史洋洋 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/289 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 神经网络 机器 学习 排序 算法 问答 系统 实现 方法 | ||
一种使用神经网络和机器学习排序算法的问答系统实现方法,其根据自然语言格式的问题,使用维基百科文档集作为数据源,给出短文本格式的答案。该方法分为文档检索和机器阅读理解两部分。文档检索部分使用LSI模型对问题和文档进行建模,根据用户提出的问题在维基百科文档库中查找最相关的五篇文档,然后将问题和这五篇文档作为下一阶段的输入,阅读理解部分使用双向神经网络分别对问题和文章中的段落进行建模,最后再使用一个双向神经网络学习最优的答案片段,将最终答案和答案所在段落反馈给用户。
技术领域
本发明属于开源问答领域,特别是以纯文本文档为知识来源的问答实现方法,并且涉及信息检索和机器阅读理解领域。
背景技术
随着互联网产业的不断发展,我们不仅仅是信息的接受者,也是信息的生产者,这也就直接导致了信息爆炸的问题,面对如此庞大冗杂的信息资源,如何快速定位到用户需要的信息也就成为了服务商亟待解决的问题,早期提出的搜索引擎能够根据用户给出的关键词返回相关的文档列表,并且随着算法的精确度不断提高,返回的结果也越来越准确,但是搜索引擎也需要用户在返回的文档结果中二次挑选所需要的答案。问答系统正是为了解决这“最后一公里”的问题而诞生的,它是一种可以根据用户提出的自然语言类的问题直接给出答案的系统,和搜索引擎相比,其节省了用户浏览返回列表中所有文档的时间。
目前最流行的问答系统大多数使用结构化的数据集来提高答案的准确度,但是结构化的数据集本身存在得许多问题却往往被大家所忽略,例如其固定的结构和知识的不完整性。所以我们将注意力重新放在以纯文本为知识来源的问答系统领域的研究,以保证知识来源的完整性和可靠性。
发明内容
本发明的目的在于以维基百科的文档库为知识来源,根据用户的自然语言问题,在大量的纯文本文档中定位到包含答案的文档,并且在文档中找到问题对应的答案短句并返回给用户,以节省用户在返回的文档列表中逐一筛选答案的过程所花费的时间。
为了达到以上的目的,本发明设计了一种基于机器学习排序的问答系统的方法,主要分为以下三个步骤:
1)文档检索部分。首先对文档和问题进行分词,构建词袋模型及索引,并进行词频和逆文档频率的计算,接着根据已有的词袋矩阵,使用LSI模型对文档集中的所有文档和已知的问题进行特征向量的构建,然后采用余弦相似度分别计算问题和每篇文档之间的相似度,并将文档按照相似度大小排序,得到和问题最相关的五篇文档作为第一部分的输出和下一阶段的输入内容。
2)阅读理解部分。阅读理解部分分为对文章的处理和对问题的处理两个模块。对于文章,我们首先将上一阶段得到的文章切分为段落,作为特征向量构建的最小单位,对于每个段落,我们选取了六种特征作为其特征向量的组成,这六种特征分别为词嵌入向量,是否精确匹配特征,词特征(其中包含词的位置特征,命名实体识别特征以及词频特征),问题对齐嵌入特征,特别地,我们为了能够区分不同的文档在挑选候选答案时的重要程度,还加入了机器学习排序特征,即对于排序靠前的文档增加额外的关注度。这样我们就得到了能够表现段落主题以及段落语义结构的全部人工特征,然后我们将所有的特征向量合并作为整个段落的特征向量,输入到双向的长短期记忆网络中,迭代更新隐含特征权重,最终得到能够表达段落特征的模型。对于问题,我们首先进行分词处理,进行分词处理,然后采用每个词的词嵌入特征作为双向长短期记忆网络学习的输入,得到每个特征的权重,作为问题特征向量的构建模型。
3)候选答案选取。经过上两个阶段的处理,我们已经极大地缩小了答案的范围并将段落和问题表示为向量的格式,接下里我们要定位到具体的答案并返回给用户。本发明假设答案必然出现在相关文章的段落中,所以在做候选答案挑选的时候我们依然采用段落作为其最小的计算单位。对于开放领域的问题,答案可能是一个词或者一个片段,并且段落中的每一个词都有可能是答案片段的开始词或结束词,我们通过计算每个单词作为起始点和终止点时的概率最大值来确定答案片段的位置,在此本发明又使用了一个双向长短期记忆网络来学习起始点和终止点位置的选取。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811298287.5/2.html,转载请声明来源钻瓜专利网。