[发明专利]一种电力行业关键词库的构建方法在审
申请号: | 202210044516.0 | 申请日: | 2022-01-14 |
公开(公告)号: | CN116484846A | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 赵军愉;柴小亮;王强;徐松晓;杨伯青;杨超;董旭亮;马秣然;马晶晶;王辉;吕航 | 申请(专利权)人: | 国网河北省电力有限公司保定供电分公司;国家电网有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/216;G06F40/284;G06F40/30;G06Q50/06 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李弘 |
地址: | 071051 河*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电力行业 关键 词库 构建 方法 | ||
1.一种电力行业关键词库的构建方法,其特征在于,包括:
收集电力行业相关数据库,获取电力行业词库数据;
对电力行业词库数据进行分词筛查,得到初始关键词库数据;
对初始关键词库数据通过TF-IDF统计方法计算初始关键词库中初始关键词的TF-IDF值;
根据初始关键词库数据中的初始关键词计算出任意初始关键词两词之间的语义相似度,根据语义相似度合并得到同义词库数据;
对同义词库数据通过TF-IDF统计方法计算同义词库数据中同义词的TF-IDF值;
基于初始关键词的TF-IDF值和同义词的TF-IDF值生成电力行业关键词库。
2.根据权利要求1所述的一种电力行业关键词库的构建方法,其特征在于,所述初始关键词的TF-IDF值由下列方式计算得到:
获取初始关键词库中初始关键词词频TF和逆文档频率IDF;
TF-IDF(初始关键词)=TF(初始关键词词频)×IDF(初始关键词逆文档频率);
所述同义词的TF-IDF值由下列方式计算得到:
获取同义词库数据中同义词词频TF和逆文档频率IDF;
TF-IDF(同义词)=TF(同义词词频)×IDF(逆文档频率IDF)。
3.根据权利要求2所述的一种电力行业关键词库的构建方法,其特征在于,所述初始关键词库数据中初始关键词词频TF和同义词库数据中同义词词频TF分别由下列方式计算得到:
获取初始关键词在初始关键词库数据中出现的次数TN1及同义词在同义词库数据中出现的次数TN2;
获取初始关键词库数据中出现最多的词的出现次数TMAX1及同义词库数据中出现最多的词的出现次数TMAX2;
TF(初始关键词词频)=TN1÷TMAX1;
TF(同义词词频)=TN2÷TMAX2。
4.根据权利要求2所述的一种电力行业关键词库的构建方法,其特征在于,所述初始关键词库数据中初始关键词逆文档频率IDF和同义词库数据中同义词逆文档频率IDF分别由下列方式计算得到:
获取初始关键词库数据中初始关键词的总数量TP1及同义词库数据中同义词的总数量TP2;
获取初始关键词库数据中初始关键词的数量Tm1及同义词库数据中同义词的总数量Tm2;
IDF(初始关键词逆文档频率)=log[TP1/(Tm1+1)];
IDF(同义词逆文档频率)=log[TP2/(Tm2+1)]。
5.根据权利要求1所述的一种电力行业关键词库的构建方法,其特征在于,电力行业相关数据库包括电力行业专利数据库、电力行业科技文件数据库以及电力行业科技项目指南数据库中的一种或多种。
6.根据权利要求1所述的一种电力行业关键词库的构建方法,其特征在于,所述任意初始关键词两词之间的语义相似度由下列方式得到:
获取任意初始关键词两词之间的词语距离Dis(W1,W2),根据词语距离Dis(W1,W2)计算得到任意初始关键词两词之间的语义相似度Sim(W1,W2)。
7.根据权利要求6所述的一种电力行业关键词库的构建方法,其特征在于,所述语义相似度Sim(W1,W2)由下列方式计算得到:
8.根据权利要求1所述的一种电力行业关键词库的构建方法,其特征在于,所述分词筛查为词典法或切分标记法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司保定供电分公司;国家电网有限公司,未经国网河北省电力有限公司保定供电分公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210044516.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:测试装置
- 下一篇:通话方法及装置、存储介质