[发明专利]一种基于电价政策的文本处理方法及系统在审
申请号: | 202011468350.2 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112395878A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 郑福康;陈正飞;王嘉豪 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/335;G06N3/04;G06N3/08;G06Q50/06 |
代理公司: | 深圳汇智容达专利商标事务所(普通合伙) 44238 | 代理人: | 熊贤卿 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 电价 政策 文本 处理 方法 系统 | ||
1.一种基于电价政策的文本处理方法,其特征在于,包括以下步骤:
步骤S10、从预定的网站上通过爬取获得电价政策材料,经过格式转换后,形成电价政策文本,并进行清洗;
步骤S11、根据清洗后的电价政策文本、基于相似度原理以及预设定阈值,对电价政策文本进行去重处理;
步骤S12、对去重后的电价政策文本进行分词预处理,所述预处理包括基于分词去除停用词、去除无效值;
步骤S13、根据分词后的文本获得一组词汇,计算所有词汇的TF-IDF值,以及分词后的词性,确定所述词汇中的候选词;
步骤S14、使用word2vec模型对上一步骤的所有电价政策文本的候选词数据进行训练,得到电价政策文本词向量;
步骤S15、将文档所有词汇向量相加后求词平均值,得到文档的向量化表示,根据文档的向量化表示确定所需的电价政策文本。
2.如权利要求1所述的方法,其特征在于,所述步骤S10进一步包括:
对经过格式转换后的电价政策材料进行清洗操作,以去除其中的特殊字符、符号、多余的换行符以及空格。
3.如权利要求2所述的方法,其特征在于,所述步骤S11中采用向量空间模型算法对电价政策文本进行去重处理,具体包括:
将候选词个数n作为向量的维数,每个候选词的权值为w,候选词出现的频率为x,通过下式计算主题向量α和文本向量β的夹角余弦来表示文本的主题相关度:
将计算结果与设定阈值进行比较,若计算结果大于设定阈值,则认定所述文本与主题相关,否则认定为不相关;根据相关性进行去重处理。
4.根据权利要求3所述的方法,其特征在于,所述步骤S12进一步包括:
步骤S120,对电价文本进行分词预处理,将电价政策文本的正文内容部分通过python的第三方库pandas读入,形成dataframe格式数据;
步骤S121,将所述dataframe格式数据转化为字符串列表L0,按行读取字符串列表L0并调用python的第三方库jieba实现中文分词,在分词前加载电价政策领域词典,得到分词后的字符串列表L1;
步骤S122,根据预先形成的停用词表去除字符串列表L1中高频出现的连词、代词和介词,读出所述L1中的所有不重复词汇,生成电价政策词汇词典L2。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述步骤S13进一步包括:
步骤S130,根据结巴词库的解析方法获得文本中每一词汇的词性,过滤掉其中介词、连词、以及无法判断词性的词汇;
步骤S131,统计文本中其他词语的的频率TF、逆文档频率IDF,计算获得每个词汇的TF-IDF值,建立基于TF-IDF的词典;对于每个文本,保留TF-IDF值排序处于预定范围的词语,确定为候选词,其中,预定范围为处于前70%-90%。
6.根据权利要求5所述的方法,其特征在于,所述步骤S14进一步包括:
步骤S140,通过one-hot方法将词汇词典的所述候选词汇建立词汇索引;
步骤S141,将所述候选词与词汇字典选词中的相同词汇进行映射得到每篇文档的词汇索引;
步骤S142,选取预定窗口大小构建训练数据集,并设置词向量维数;对每个训练数据集内词汇进行负采样训练,读出训练结束后的权重矩阵,获得电价政策文本词向量文件。
7.根据权利要求6所述的方法,其特征在于,所述步骤S15进一步包括:
步骤S150,将预处理后的字符串列表所述与每一篇文档的标签映射得到映射后的数组;
步骤S151,将数组中的词汇与词向量文件建立映射,得到文档的词向量数组;将所述组数中在训练词汇词典中未出现的词汇用零向量表示;
步骤S152,将每一篇文档分别求词平均值,得到文本向量;
步骤S153,根据文档的向量确定所需的电价政策文本。
8.一种基于电价政策的文本处理系统,其包括:一个或多个处理器、一个或多个输入设备、一个或多个输出设备和存储器,上述处理器、输入设备、输出设备和存储器通过总线相互连接。存储器用于存储计算机程序,所述计算机程序包括程序指令,其特征在于,所述处理器被配置用于调用所述程序指令执行如权利要求1至7任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011468350.2/1.html,转载请声明来源钻瓜专利网。