[发明专利]基于改进Jieba分词的配电网检修文本信息提取方法在审
申请号: | 202111108711.7 | 申请日: | 2021-09-22 |
公开(公告)号: | CN113988066A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 丁一;张磐;滕飞;霍现旭;戚艳;杨挺;尚学军;陈沛;焦秋良;孙峤;吴磊 | 申请(专利权)人: | 国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 王来佳 |
地址: | 300384 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 jieba 分词 配电网 检修 文本 信息 提取 方法 | ||
1.一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:包括以下步骤:
步骤1、分析配电网巡检文本特征;
步骤2、根据步骤1的配电网巡检文本特征,对配电网巡检文本进行清洗;
步骤3、基于所述步骤2数据清洗之后的配电网巡检文本,利用Jieba分词工具进行一次分词,统计词频并形成电力巡检文本关键词表。
步骤4、针对配电网巡检文本,利用TF-IDF算法对步骤3所形成的电力巡检文本关键词表进行完善;
步骤5、将步骤4中利用TF-IDF算法获得完善后的电力巡检文本关键词表加载至Jieba词典,完成Jieba词典中关键词表与停用词表的更新。
2.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤1的配电网巡检文本特征包括:
(1)巡检文本结构不一致;
(2)巡检文本长度有差别;
(3)巡检文本包含特殊意义字符;
(4)巡检文本部分词汇重复度高。
3.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤2的具体步骤包括:
(1)删除重复记录,减少不同人员书写习惯不同造成的差异;
(2)删除空白记录,缩小部分文本的无效长度;
(3)删除文本中含有的标点符号;
(4)删除无意义词汇。
4.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤3的具体步骤包括:
(1)通过Jieba一次分词,抽样出部分原始文本与其分词数据,观察识别分词结果;
(2)对比原始的文本,提取出错分的词,构造成关键词表;
(3)对分词文本进行数值上的统计;
(4)最后,将统计得到的高频词加入到关键词表中,通过Jieba分词,建立电力巡检文本关键词表。
5.根据权利要求1所述的一种基于改进Jieba分词的配电网检修文本信息提取方法,其特征在于:所述步骤4的具体步骤包括:
(1)计算TF
TF表示某个电力词汇在整篇文章中出现的概率,其计算公式为:
其中,nij为配电网巡检特征词在文中出现的次数,∑knkj则是文本中所有特征词的个数;TFij计算的结果即为某个电力特征词的词频;
(2)计算IDF
IDF表示逆向文本频率,其计算公式为:
其中,N表示语料库中全部文章的数量,1+Npower表示文章中具有明显特征的词语power的数量,为防止该词语在语料库中不存在,即分母为0,使用1+Npower作为分母,IDFij表示逆向文本频率。
(3)计算TF-IDF
其计算公式为:
TF-IDFij=TFij·IDFij (3)
TF-IDF的值是由词频TFij和逆向文本词频IDFij的乘积得到的,TF-IDF的值越大,表示该电力特征词对这个文本的重要性越大。
(4)利用TF-IDF算法进行关键词提取后,形成完善后的电力巡检文本关键词表,并完善Jieba词库,提高Jieba词典在电力领域的分词能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司,未经国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111108711.7/1.html,转载请声明来源钻瓜专利网。