[发明专利]一种基于结构化表达的电力运维文本分析方法有效

专利信息
申请号: 201811465625.X 申请日: 2018-12-03
公开(公告)号: CN109800310B 公开(公告)日: 2021-11-09
发明(设计)人: 祝春捷;夏霖;潘坚跃;陈超;孔晓杭;泮莉莎;施婧;李雅;雷云;陈晨;陈文康;王汝英;李欣荣;赵光俊;周航帆;魏伟;边立云;刘畅;李艳 申请(专利权)人: 国网浙江省电力有限公司杭州供电公司;天津市普迅电力信息技术有限公司;国网信息通信产业集团有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06F40/289;G06F40/216;G06F40/30
代理公司: 天津盛理知识产权代理有限公司 12209 代理人: 董一宁
地址: 310000 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于结构化表达的电力运维文本分析方法,包括如下步骤:①通过采集电力运维日志并加入维基百科的开源中文语料库构建电力运维语料数据库,同时对所构建的语料数据库进行预处理;②基于所构建的电力运维语料库,针对这种中文记录文档特征设计基于拼音统计的词向量;③采用CBOW模型网络架构生成中文词表示向量;④采用基于Bi‑LSTM字符级提取方法识别实体关键词⑤对于所提取的实体关键词,构建多维特征语义槽结构;⑥提取影响事故发生的多类特征的类内和类间的关系。该方法可对庞大且冗杂的企业级文本数据资产实现对其进行统一管理,通过数据分析并高效获取相关设备网点运营状况,发现潜在的危险和隐患,在第一时间能够对异常事件做出响应。
搜索关键词: 一种 基于 结构 表达 电力 维文 分析 方法
【主权项】:
1.一种基于结构化表达的电力运维文本分析方法,其特征在于:包括如下步骤:①通过采集电力运维日志并加入维基百科的开源中文语料库构建电力运维语料数据库,同时对所构建的语料数据库进行预处理;②基于所构建的电力运维语料库,针对这种中文记录文档特征设计基于拼音统计的词向量,引入了语素拼音的词频作为统计权重,即对拼音表示在训练集语料和全文档中统计词频和逆文档概率TFp和IDFp,其中③采用CBOW模型网络架构生成中文词表示向量,对于给定长度语句S=[x1,x2,...,xK],其中xK为第K个语素,通过一个固定大小(2m+1)窗口内的上下文语素来预测目标中心词xi,获取中心语素的前m个和后m个语素{xi‑m,...,xi‑1,xi+1,...,xi+m}的局部拼音表示组对每一个拼音组的拼音表示随机生成T维的拼音词向量pxj,每一个语素包含多个不同长度n的拼音表示,即构成拼音词向量组{px1,px2,...,pxl};所述CBOW网络架构是包含输入层、输出层和一个隐含层的神经网络;④采用基于Bi‑LSTM字符级提取方法识别实体关键词,其方法流程为:首先对拼字输入26个拼音字符通过ont‑hot随机编码为26维字向量构造一个查找表,对语素拼音的每个字符分别参照查找表表示为初始化字向量,然后以Tw大小滑窗通过一个卷积层和一个最大池化层,构造每个字符对应的Tc维字向量cx,然后融合每个语素的词向量和字向量特征,即生成(T+Tc)维的拼音特征向量vx,将词特征向量作为输入放入Bi‑LSTM网络模型,其中前向LSTM的输入序列是文本中以语素为单元的顺序序列,后向LSTM的输入是其逆序序列;通过Bi‑LSTM网络,在t时刻前向LSTM输出矩阵为后向LSTM输出为其组合值为在Bi‑LSTM网络的输出层通过softmax进行激活,即为:yt=softmax(WHt+b);⑤对于所提取的实体关键词,构建多维特征语义槽结构,该结构由七个语义槽构成,分别为:F={C,N,D,T,A,R,E,P},C为作业单位,N为姓名,D为日期,T为时间,A为事故发生原因,R为故障线路,E为故障设备,P为事故发生地点;具体方法是:首先对电力运维日志历史记录进行处理,设计运维文本的文法表达结构并通过实体关键词提取来构造不同词类的本体字典,同时获得本体字典中的全部词语的词向量表示Wij,其中本体字典包含i个词类,每个此类包含j个词语,对同一词类的全部词向量取平均值获得Wi*作为第i词类的特征向量;语义槽填充包括关键词提取和正则匹配,对外部语料提取实体关键词与字典词进行匹配,匹配成功则根据词类填入语义槽中,若所提取关键词未与字典完全匹配,则对比该关键词与各个词类间的语义相似度,即sim(Wkey,Wi*)=Wkey·Wi*,将该关键词划分为余弦距离最近的一类,此外若所提取关键词中包含多个同词类目标,则按照顺序一次填入语义槽;对于语料中的数值信息,采用正则表达式提取符合相应正则文法的数量词,并将数字信息推导成为最终的标准数字量;中间语义槽经过词串合并,最终能够对非/半结构化文本重组为多维特征语义槽结构的文法表达结构,同时获得到的语素或词串也可以用与扩充本地字典;⑥提取影响事故发生的多类特征的类内和类间的关系;每一词类及一个事故影响因素,对于类内特征的分析采用统计词频特征TF‑IDF,对类内全部词语统计TF‑IDF,由高到底进行排序,即获得同一影响因素下最可能发生事故的特征;同时,对于同一类影响因素下的多个特征间存在的联系提取方法为:两个不同特征Wi和Wj属于同一词类,其间语义相似度函数为sim(Wi,Wj)=Wi·Wj,对于类内的全部词语,依次获得两个词向量余弦距离最相邻的词语构成一组因素串,即为所获得的同类别事故影响因素的关联结果;对于不同类间影响因素的关联,在词频维度上,Wi和Wk是任意两个不同词类的特征,认为其同时出现在同一文本中是不同因素的高发强关联特征,因此设计两个特征间词频距离为,其中Ti是在全语料中每个文本包含Wi的TF‑IDF词频的统计量,采用k‑means聚类将dik作为距离函数在类间统计多类影响因素同时造成事故发生的情况。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司杭州供电公司;天津市普迅电力信息技术有限公司;国网信息通信产业集团有限公司,未经国网浙江省电力有限公司杭州供电公司;天津市普迅电力信息技术有限公司;国网信息通信产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811465625.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top