[发明专利]一种开放领域问答任务中长文本检索的方法和电子设备有效
申请号: | 202011037021.2 | 申请日: | 2020-09-28 |
公开(公告)号: | CN111881264B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 钱泓锦;刘占亮;刘家俊;窦志成 | 申请(专利权)人: | 北京智源人工智能研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30 |
代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳;白婉露 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 开放 领域 问答 任务 中长 文本 检索 方法 电子设备 | ||
1.一种开放领域问答任务中长文本检索的方法,其特征在于,包括:
利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,所述编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;
根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档;
从所述候选文档中选择所述搜索请求对应的目标文档;
其中,所述正样本采用如下方法获得:
对存在与历史搜索请求对应的答案的文档进行切分,得到多个第一文本片段;
计算所述第一文本片段与所述历史搜索请求的相关性得分;
选取答案所在的第一文本片段及其前后文各一个第一文本片段及其相关性得分组成正样本;
所述编码器训练的目标函数如下:
其中,为正样本中第一文本片段的相关性得分,表示搜索请求数据,表示负样本数据,表示正样本数据,表示历史搜索请求被编码器编码后的稠密向量,表示正样本被编码器编码后的稠密向量,表示负样本被编码器编码后的稠密向量,表示搜索请求与正样本的相似度,表示搜索请求与负样本的相似度。
2.如权利要求1所述的开放领域问答任务中长文本检索的方法,其特征在于,所述计算所述第一文本片段与所述历史搜索请求的相关性得分,包括:
答案所在的第一文本片段的相关性得分为1;
第i个第一文本片段的相关性得分按照如下公式计算:
,
其中,为答案所在的第一文本片段的序号,为第个第一文本片段与答案所在的第一文本片段的相对距离,为其他第一文本片段与答案所在的第一文本片段的最大相对距离。
3.如权利要求1所述的开放领域问答任务中长文本检索的方法,其特征在于,所述负样本包括:
与所述历史搜索请求的相关性得分为零的第一文本片段;
和/或
其他历史搜索请求的正样本。
4.如权利要求1所述的开放领域问答任务中长文本检索的方法,其特征在于,所述利用预先训练的编码器将开放领域文档编码为文档稠密向量,包括:
切分开放领域文档,得到多个第二文本片段;
利用预先训练的编码器将所述第二文本片段转化为所述文档稠密向量。
5.如权利要求4所述的开放领域问答任务中长文本检索的方法,其特征在于,所述根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档,包括:
计算所述文档稠密向量与所述请求稠密向量的相似度得分,作为所述文档稠密向量对应的第二文本片段与所述搜索请求的相似度得分;
获取与所述搜索请求的所述相似度得分符合要求的多个第二文本片段;
以多个所述第二文本片段所属的开放领域文档作为候选文档。
6.如权利要求5所述的开放领域问答任务中长文本检索的方法,其特征在于,所述从所述候选文档中选择所述搜索请求对应的目标文档,包括:
获取属于所述候选文档的每个所述第二文本片段与所述搜索请求的相似度得分;
累计属于同一候选文档的所述第二文本片段与所述搜索请求的相似度得分,得到每个候选文档与搜索请求的相似度得分;
根据候选文档与搜索请求的相似度得分的排序得到所述目标文档。
7.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-6任一项所述的方法。
8.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-6任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011037021.2/1.html,转载请声明来源钻瓜专利网。