[发明专利]文本搜索方法及其系统在审
申请号: | 202110397288.0 | 申请日: | 2021-04-13 |
公开(公告)号: | CN112948563A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 莫迪;莫桐 | 申请(专利权)人: | 天津禄智技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/9535;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 301800 天津市宝坻区中关村*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 搜索 方法 及其 系统 | ||
1.文本搜索方法,其特征在于,包括:
采用答案边界模型,通过确定答案的起始和结束为止,从每篇文档中找到可能的候选答案;
对候选答案内容的语义进行建模,在语义建模时,对答案的内容进行打分,从另一个角度(除了边界)来衡量了答案的质量;
通过让每个候选答案根据它们的内容表示对其他候选答案进行验证,候选答案可以根据它们的语义相似性,彼此收集支持信息,从而进一步决定每个候选是否正确。
2.根据权利要求1所述的文本搜索方法,其特征在于,所述给定一个问题Q和一系列由搜索引擎搜索到的文档,找出能够回答这个问题的精准答案,需要对问题、文档进行建模,以获得它们的向量化表示,包括:
获得问题和文档中的每个词的embedding表示(其中词的embedding和字符embedding的加和),然后使用双向LSTM来进行编码(Encoding);
用注意力机制进行问题(Q)和文档(P)的匹配,直接使用点积来计算问题中的第t个词和文档中第k个词的相似度:
基于计算出来的相似度矩阵,严格按照AttentionFlowLayer的方式使用了问题到文档和文档到问题的注意力机制,并最终获得了带有问题信息的文档表示,然后,使用了一层双向LSTM来融合上下文信息,对文档中的每个词我们获得了新的表示,在编码和Q-P匹配阶段将每一篇文章独立看待。
3.根据权利要求1所述的文本搜索方法,其特征在于,所述答案边界模型采用PointerNetwork来计算每一个词作为答案开始和结束的概率,和分别是第k个词作为开始和结束的概率,为了使得计算出来的概率能够在不同文档间可比,在使用PointerNetwork之前,是将所有文档的表示连接起来进行注意力机制计算的,边界模型可以通过最小化正确的开始和结束位置的负的对数似然进行优化。
4.根据权利要求1所述的文本搜索方法,其特征在于,所述采用答案边界模型工作,找到边界分数最大的片段作为最终答案,对候选答案加以表示,从而能够进行跨文档的验证,可以根据概率获得候选答案的表示,训练答案内容模型的方式包括:
把原来的答案边界的标签转换为一段连续的答案内容标签,即答案内部的词将会被标记成1,外部的词将会被标记成0,使用交叉熵作为内容模型的损失函数,
对每一个词计算了一个它被包含进答案内容的概率,这一概率在答案边界之外,提供了另一个角度来衡量答案的好坏,更进一步的,使用这一概率。
5.根据权利要求1所述的文本搜索方法,其特征在于,所述跨文档的答案验证过程包括:
给定从所有文档中抽取出来的候选答案表示,让每一个答案候选关注其他的答案候选,从而能够通过注意力机制来收集支持性的信息;
根据注意力的权重来收集的对答案Ai的验证信息,计算Ai的验证分数;
为了训练这一个验证模型,将从正确的文档抽取的那个答案作为正确答案,通过验证,能够将改答案选出,损失函数可以定义为该答案的负的对数似然。
6.根据权利要求1所述的文本搜索方法,其特征在于,所述当预测最终答案时,考虑边界分数,内容分数和验证分数,首先从文档i中提取具有最大边界分数的候选答案,边界分数是候选答案的开始位置和结束位置概率的乘积,对于每个候选答案,取它的所有单词的内容概率平均值作为为的内容分数,在计算完候选答案的表示之后,进一步使用验证模型预测的验证得分,最后,根据这三个分数的乘积从所有候选答案中选择出最终的答案。
7.一种文本搜索系统,其特征在于,包括:
答案边界模块用于找出答案的边界;
答案内容模块用于预测每个单词是否应该包含在内容中;
跨文档的答案验证模块用于通过跨文档的答案验证选出最佳答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津禄智技术有限公司,未经天津禄智技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110397288.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种循环风等离子体消毒机结构及外壳设计
- 下一篇:一种具有内腔的十字槽螺丝钉