[发明专利]一种领域词典生成方法及装置有效
申请号: | 201910002132.0 | 申请日: | 2019-01-02 |
公开(公告)号: | CN109783649B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/95 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 词典 生成 方法 装置 | ||
1.一种领域词典生成方法,其特征在于,所述方法包括:
获取目标领域的相关文本;
根据所述相关文本得到字符单元集合,所述字符单元集合中包括多个字符单元,所述字符单元由所述相关文本中的连续字符进行组合而得到;
获取每个字符单元的互相关度以得到所述目标领域的原始词典;
将每个字符单元与所述相关文本进行匹配以得到第一逆文本词频,所述第一逆文本词频为所述字符单元在所述相关文本中的逆文本词频;
获取所述目标领域的无关文本;
将每个字符单元与所述无关文本进行匹配以得到第二逆文本词频,所述第二逆文本词频为所述字符单元在所述无关文本中的逆文本词频;
依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度;
根据所述贡献度对所述原始词典中的字符单元进行排序,得到第二队列;
从所述第二队列中截取第二预设数量的字符单元;其中,所述第二预设数量的字符单元的贡献度均大于所述第二队列中其余字符单元的贡献度;
由所述第二预设数量的字符单元构成所述目标领域的目标词典。
2.根据权利要求1所述的领域词典生成方法,其特征在于,所述获取每个字符单元的互相关度以得到所述目标领域的原始词典,包括:
获取每个字符单元的互相关度;
根据所述互相关度对所述字符单元集合中的字符单元进行排序,得到第一队列;
从所述第一队列中截取第一预设数量的字符单元;其中,所述第一预设数量的字符单元的互相关度均大于所述第一队列中其余字符单元的互相关度;
由所述第一预设数量的字符单元构成所述原始词典。
3.根据权利要求1所述的领域词典生成方法,其特征在于,依据所述第一逆文本词频和第二逆文本词频得到所述字符单元对所述目标领域的贡献度,包括:
由第一逆文本词频减去所述第二逆文本词频得到所述字符单元对所述目标领域的贡献度。
4.根据权利要求1或2所述的领域词典生成方法,其特征在于,所述得到所述目标领域的原始词典,之后还包括:
获取目标领域的历史词典;
根据所述历史词典对所述原始词典进行更新;
其中,所述根据所述历史词典对所述原始词典进行更新,包括:
获取第一待删除字符单元集合;所述第一待删除字符单元集合为所述原始词典中的字符单元与所述历史词典中的字符单元的交集;
从所述原始词典中删除所述第一待删除字符单元集合,得到更新后的原始词典。
5.根据权利要求1所述的领域词典生成方法,其特征在于,所述根据所述贡献度对所述原始词典中的字符单元进行排序,得到第二队列,之后还包括:
获取目标领域的历史词典;
根据所述历史词典对所述第二队列进行更新;
其中,所述根据所述历史词典对所述第二队列进行更新,包括:
获取第二待删除字符单元集合,所述第二待删除字符单元集合为所述第二队列中的字符单元与所述历史词典中的字符单元的交集;
从所述第二队列中删除所述第二待删除字符单元集合;
对所述第二队列中的字符单元按照贡献度进行重新排序;
从重新排序后得到的第二队列中截取第三预设数量的字符单元;其中,所述第三预设数量的字符单元的贡献度均大于所述重新排序后得到的第二队列中其余字符单元的贡献度;
由所述第三预设数量的字符单元构成更新后的第二队列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910002132.0/1.html,转载请声明来源钻瓜专利网。