[发明专利]一种文本检索方法及装置在审
申请号: | 201711048519.7 | 申请日: | 2017-10-31 |
公开(公告)号: | CN110019670A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 戴威 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 词语集合 检索文本 词向量 关键词集合 文本检索 文本 相似度 检索 检索结果 分词 预设 排序 输出 | ||
本发明公开了一种文本检索方法及装置。方法包括:对检索文本进行分词,获得检索词语集合;对于检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;依据各个词语的熵值和,选取预设数量的词语作为关键词集合;确定关键词集合中各个词语的词向量;获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;计算关键词集合中每一个词语的词向量分别与至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;根据相似度将至少一个待检索文本进行排序输出。本发明提高了检索结果的准确性。
技术领域
本发明涉及文本检索技术领域,尤其涉及一种文本检索方法及装置。
背景技术
法律文书类案推送是指输入一篇法律文书,采用一定的算法获得一系列与该输入的法律文书相似的其他文书,借此以快速查找到与当前输入的法律文书相关的历史文书(也称历史案件)。
然而目前采用的算法一般是基于一些筛选规则,例如案由相同、适用法条一致等,来检索出与输入的法律文书相似的其他文书,这种检索方式得到的检索结果往往准确性较差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本检索方法及装置,技术方案如下:
一种文本检索方法,所述方法包括:
对检索文本进行分词,获得检索词语集合;
对于所述检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
依据各个词语的熵值和,选取预设数量的词语作为关键词集合;
确定所述关键词集合中各个词语的词向量;
获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;
根据所述相似度将所述至少一个待检索文本进行排序输出。
可选地,获取至少一个待检索文本包括:基于所述检索文本,利用文本相似度算法,确定至少一个待检索文本;
获取至少一个待检索文本各自对应的文本词语集合包括:
对每一个待检索文本进行分词,获得多个词语;
从所述多个词语中去除重复词语和停用词,获得候选词语集合;
对于所述候选词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
根据所述候选词语集合中的各个词语的熵值和,从所述候选词语集合中确定出文本词语集合。
可选地,对于每个词语,分别计算每个词语的左侧熵值和右侧熵值包括:
对于每个词语,统计该词语在其所在文本中所有出现位置处的左侧词语,构成左侧词语集合;统计该词语在其所在文本中所有出现位置处的右侧词语,构成右侧词语集合;
计算所述左侧词语集合的熵值,作为该词语的左侧熵值;
计算所述右侧词语集合的熵值,作为该词语的右侧熵值。
可选地,所述根据所述相似度将所述至少一个待检索文本进行排序输出,包括:
对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711048519.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本检索方法及装置
- 下一篇:一种处理实时消息的方法和系统