[发明专利]一种语句检索方法及装置在审
申请号: | 201910123852.2 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109766429A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 罗晓天 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 语义特征 检索 向量 查询语句 相似度 语料库 词语相似度 检索过程 检索结果 特征向量 语义信息 构建 预设 重合 申请 词语 筛选 灵活 | ||
本申请提出一种语句检索方法及装置,该语句检索方法,包括:构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;从所述语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。上述语句检索过程不再从字符或词语相似度层面检索相似语句,而是从语句的含义层面进行相似语句检索,相对于检索得到字符或词语与查询语句存在高度重合的相似语句,本申请实施例所检索出的相似语句的形式更灵活,检索结果更丰富、全面。
技术领域
本申请涉及文本检索技术领域,尤其涉及一种语句检索方法及装置。
背景技术
针对查询语句,从语料库中检索出与查询语句相似的语句,是一种常见的文本检索应用场景。
目前常用的相似语句检索方法是根据查询语句中的词语或字符,从语料库中检索与查询语句的词语或字符的重合度较高的语句,作为检索得到的相似语句。
上述技术方案通过查询语句中的词语或字符从语料库中检索相似语句时,得到的相似语句都是与查询语句存在大量重复字符的语句,检索结果较单一,对于字符形式与查询语句不同,但是语句含义与查询语句类似的语句都无法检出。
发明内容
基于上述现有技术的缺陷和不足,本申请提出一种语句检索方法及装置,能够提高检索准确度,使检索更全面。
一种语句检索方法,包括:
构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;
分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;
从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。
可选的,所述构建查询语句的语义特征向量,包括:
分别构建所述查询语句的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;
根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。
可选的,所述根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量,包括:
计算所述查询语句的每个分词以及每个词组的特征向量之和的平均值,作为所述查询语句的语义特征向量。
可选的,在分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:
对预设的语料库中的语句进行去重处理。
可选的,所述对预设的语料库中的语句进行去重处理,包括:
分别计算预设的语料库中的各个语句之间的dice距离;
根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;
和/或,
分别计算所述语料库中的各个语句之间的编辑距离;
根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。
可选的,在分别度量所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910123852.2/2.html,转载请声明来源钻瓜专利网。