[发明专利]生成关键词库的方法、装置和电子设备有效
申请号: | 201910619391.8 | 申请日: | 2019-07-10 |
公开(公告)号: | CN110427492B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 李超;姚廉;黄宇寰;王维强;汲小溪 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 关键 词库 方法 装置 电子设备 | ||
1.一种生成关键词库的方法,包括:
基于目标类别对应的目标文本语料,确定所述目标类别的M个初始关键词,M为大于或等于2的整数;
确定所述M个初始关键词之间的语义相似度;
基于所述M个初始关键词和所述语义相似度,生成所述目标类别的目标关键词库;
其中,所述确定所述M个初始关键词之间的语义相似度,包括:
对所述M个初始关键词进行排序,得到第一排序结果;
基于所述第一排序结果,确定排序靠前的N个初始关键词之间的第一语义相似度和其他初始关键词与所述N个初始关键词之间的第二语义相似度,N为小于M的整数;
所述基于所述M个初始关键词和所述语义相似度,生成所述目标类别的目标关键词库,包括:
基于每个初始关键词对应的语义相似度和对应的TF-IDF值的乘积,对所述M个初始关键词再次进行排序,得到第二排序结果;
基于所述第二排序结果,将排序靠前的预设数量的初始关键词构成的词库确定为所述目标关键词库。
2.根据权利要求1所述的方法,所述基于目标类别对应的目标文本语料,确定所述目标类别的M个初始关键词,包括:
对所述目标文本语料进行分词处理,得到P个目标分词,P为大于或等于M的整数;
基于所述P个目标分词对应的词频-逆文档频率TF-IDF值,确定所述M个初始关键词;
其中,所述对所述M个初始关键词进行排序,得到第一排序结果,包括:
基于所述M个初始关键词对应的TF-IDF值,对所述M个初始关键词进行排序,得到所述第一排序结果。
3.根据权利要求1或2所述的方法,所述确定所述M个初始关键词之间的语义相似度,包括:
基于语义相似度计算模型,确定所述M个初始关键词之间的语义相似度。
4.根据权利要求3所述的方法,所述语义相似度计算模型基于开源语料库训练生成。
5.根据权利要求1或2所述的方法,所述对所述目标文本语料进行分词处理,得到P个目标分词,包括:
对所述目标文本语料进行分词处理,得到Q个初始分词;
基于所述Q个初始分词和预设选择规则,确定所述P个目标分词。
6.根据权利要求1或2所述的方法,所述目标类别为行业类别,所述目标文本语料为所述行业类别对应的商户相关信息。
7.一种生成关键词库的装置,包括:
第一处理单元,基于目标类别对应的目标文本语料,确定所述目标类别对应的M个初始关键词,M为大于或等于2的整数;
第二处理单元,确定所述M个初始关键词之间的语义相似度;
生成单元,基于所述M个初始关键词和所述语义相似度,生成所述目标类别的目标关键词库;
其中,所述第二处理单元,确定所述M个初始关键词之间的语义相似度,包括:
对所述M个初始关键词进行排序,得到第一排序结果;
基于所述第一排序结果,确定排序靠前的N个初始关键词之间的第一语义相似度和其他初始关键词与所述N个初始关键词之间的第二语义相似度,N为小于M的整数;
所述生成单元,基于所述M个初始关键词和所述语义相似度,生成所述目标类别的目标关键词库,包括:
基于每个初始关键词对应的语义相似度和对应的TF-IDF值的乘积,对所述M个初始关键词再次进行排序,得到第二排序结果;
基于所述第二排序结果,将排序靠前的预设数量的初始关键词构成的词库确定为所述目标关键词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910619391.8/1.html,转载请声明来源钻瓜专利网。