[发明专利]一种基于电价政策的文本处理方法及系统在审

专利信息
申请号: 202011468350.2 申请日: 2020-12-14
公开(公告)号: CN112395878A 公开(公告)日: 2021-02-23
发明(设计)人: 郑福康;陈正飞;王嘉豪 申请(专利权)人: 深圳供电局有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06F16/335;G06N3/04;G06N3/08;G06Q50/06
代理公司: 深圳汇智容达专利商标事务所(普通合伙) 44238 代理人: 熊贤卿
地址: 518000 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 电价 政策 文本 处理 方法 系统
【说明书】:

发明公开了一种基于电价政策的文本处理方法及系统,通过构建对爬取后的电价文本进行清洗、分词、预处理、表征,能够解决电价政策系统应用底层文本管理困难、繁杂的问题,采用特征工程、机器学习、非结构化数据处理方法自动化工作流程将电价文本转为正确的格式,极大地提高了电价政策分析人员在业务中人工环节的应用效率;能快速地将文本进行处理并向量化表示,为后续系统中的业务,如推荐、分类等模块提供支撑,通过对文本进行清洗、降低了噪声数据对上游业务的影响,基于两种文本切割方式的表征方法,极大提高了电价政策进行电价之间隐含语义的关系,这种表征方法在后续系统业务中有着重要的作用。

技术领域

本发明涉及知识图谱与自然语言处理技术领域,具体涉及一种基于电价政策的文本处理方法及系统。

背景技术

加强电价管理是供电企业实现销售收入,提高盈利水平的重要保证。认真执行国家电价政策、法规,规范电价管理秩序,对保证国家产业政策调控,节约能源,维护供用电双方的经济利益有着重要意义。随着营销自动化在全国范围的顺利运行,对规范用电营销业务和电价管理起到了重要作用。从目前我国营销自动化运行过程中发现,在电价管理上存在着一定的漏洞和问题,有必要加以完善和改进。其中,电价政策直接影响着整个电力能源行业的发展,目前储能在用户侧的盈利模式仍以峰谷电价套利为主,峰谷电价的变化也牵动着储能的脉象。电价在电力营销中扮演着非常重要角色,如果不能掌握好电价,就会影响电量的使用情况,电量使用又会给电力企业发展带来一定的影响,循环往复的发展,便会使电力企业出现瘫痪。因此,需要及时地获知电价政策,以便于制定合理的电力营销策略,促进电力企业发展。

一般而言,电价政策信息会在专业性和权威性强的国家层面的网站发布,因此可以从这些网站上获取电价政策文档,而为了方便管理人员快速了解电价政策文档,需要对电价政策文档进行分割,把文本分词则是电价政策文本预处理的重要步骤。后续的分类操作需要使用文本中的单词来表征文本,所以分词效果直接影响电价政策分类效果;但现有技术中对电价政策材料中电价政策语义的理解性,以及分词处理的准确性和效率均不能达到要求。

发明内容

为解决上述技术问题,本发明提供一种基于电价政策的文本处理方法及系统,可提高对电价政策材料中电价政策语义的理解性,快速且准确地实现分词处理,能帮助业务人员更加准确的了解电价政策。

本发明的一方面,提供一种基于电价政策的文本处理方法,其包括以下步骤:

步骤S10、从预定的网站上通过爬取获得电价政策材料,经过格式转换后,形成电价政策材料;

步骤S11、根据清洗后的电价政策文本、基于相似度原理以及预设定阈值,对电价政策文本进行去重;

步骤S12、对去重后的电价政策文本进行分词预处理,所述预处理包括基于分词去除停用词、去除无效值;

步骤S13、根据分词后的文本获得一组词汇,计算所有词汇的TF-IDF值,以及分词后的词性,确定所述词汇中的候选词;

步骤S14、使用word2vec模型对上一步骤的所有电价政策文本的候选词数据进行训练,得到电价政策文本词向量;

步骤S15、将文档所有词汇向量相加后求词平均值,得到文档的向量化表示,根据文档的向量化表示确定所需的电价政策文本。

优选地,所述步骤S10进一步包括:

对经过格式转换后的电价政策材料进行清洗操作,以去除其中的特殊字符、符号、多余的换行符以及空格。

优选地,所述步骤S11中采用向量空间模型算法对电价政策文本进行去重处理,具体包括:

将候选词个数n作为向量的维数,每个候选词的权值为w,候选词出现的频率为x,通过下式计算主题向量α和文本向量β的夹角余弦来表示文本的主题相关度:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011468350.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top