[发明专利]一种语句检索方法及装置在审
申请号: | 201910123852.2 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109766429A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 罗晓天 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 语义特征 检索 向量 查询语句 相似度 语料库 词语相似度 检索过程 检索结果 特征向量 语义信息 构建 预设 重合 申请 词语 筛选 灵活 | ||
1.一种语句检索方法,其特征在于,包括:
构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;
分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;
从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。
2.根据权利要求1所述的方法,其特征在于,所述构建查询语句的语义特征向量,包括:
分别构建所述查询语句的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;
根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量,包括:
计算所述查询语句的每个分词以及每个词组的特征向量之和的平均值,作为所述查询语句的语义特征向量。
4.根据权利要求1至3中任一权利要求所述的方法,其特征在于,在分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:
对预设的语料库中的语句进行去重处理。
5.根据权利要求4所述的方法,其特征在于,所述对预设的语料库中的语句进行去重处理,包括:
分别计算预设的语料库中的各个语句之间的dice距离;
根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;
和/或,
分别计算所述语料库中的各个语句之间的编辑距离;
根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。
6.根据权利要求1至3中任一权利要求或权利要求5所述的方法,其特征在于,在分别度量所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:
对预设的语料库中的语句进行语句清洗处理。
7.一种语句检索装置,其特征在于,包括:
向量构建单元,用于构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;
相似度度量单元,用于分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;
语句筛选单元,用于从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。
8.根据权利要求7所述的装置,其特征在于,所述向量构建单元,包括:
词向量构建单元,用于分别构建所述查询语句中的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;
词向量运算单元,用于根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。
9.根据权利要求7或8所述的方法,其特征在于,所述装置还包括:
去重处理单元,用于对预设的语料库中的语句进行去重处理。
10.根据权利要求9所述的装置,其特征在于,所述去重处理单元对预设的语料库中的语句进行去重处理时,具体用于:
分别计算预设的语料库中的各个语句之间的dice距离;
根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;
和/或,
分别计算所述语料库中的各个语句之间的编辑距离;
根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910123852.2/1.html,转载请声明来源钻瓜专利网。