[发明专利]电网设备缺陷文本的信息辨识方法有效

申请号：	201910215568.8	申请日：	2019-03-21
公开（公告）号：	CN109977228B	公开（公告）日：	2021-01-12
发明（设计）人：	王慧芳;邵冠宇;何奔腾	申请（专利权）人：	浙江大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06Q10/00;G06Q50/06
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	忻明年
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	电网设备缺陷文本信息辨识方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.电网设备缺陷文本的信息辨识方法，其特征在于该方法包括以下步骤：

步骤1. 建立基于状态转移框架的依存句法分析模型，针对实际的电力设备缺陷文本生成依存句法树，具体如下：

(1)依存句法分析框架的建立：将构建依存树时生成两个词的依存关系的过程对应为不同的动作状态；通过维护队列Q、栈S和依存关系集合A这样的三元组Q,S,A来表示；

(2)初始状态下，负责处理生成依存关系的栈中只有虚拟根节点ROOT，句子所有词都在维护队列Q中；通过不同动作，将维护队列Q中的词移入栈S处理，直至维护队列Q为空、栈S只含ROOT节点，句法分析过程结束；动作分为三种：添加左依存关系并将依存词出栈，添加右依存关系并将依存词出栈，将队列首词入栈，其中前两种动作以栈顶词和栈次顶词为目标词进行判断；

(3)动作确定后，将依存关系的判定看作是分类问题，由特征输入和解码算法确定；选取栈顶、栈次顶和队列首端3个词，每个词的最左最右、次左次右子节点和最左最右孙子节点共6个词作为词特征，即词特征输入量为18；再选取上述词对应的词性作为词性特征，即词性特征输入量也为18；选取栈顶、栈次顶词与其子节点和孙子节点的依存关系作为第三类特征输入，即依存关系特征输入量为12；最后将标点看作独立词，利用和词同样的处理方式作为特征输入；

采用含有单隐藏层的BP神经网络进行解码，输入层由词向量映射模型训练得到的特征向量拼接而成，隐藏层采用“线性拟合+立方激活”方式学习与输出依存关系动作类别相关的高维特征，输出层利用softmax分类器分类，得到不同依存关系动作的概率，取概率最大的依存关系动作为当前处理动作，并得到依存关系，即根据实际缺陷文本生成了依存句法树；

步骤2. 结合实际缺陷文本特点，对依存句法树进行剪枝、切分和重构，生成只包含核心语义信息的精简依存句法树，具体是：

(1)针对剪枝过程，利用依存句法树中的依存关系，采用深度优先搜索的方法依次找出缺陷文本中的缺陷主体、宾语、描述缺陷程度的状语部分，并对与根节点独立关系的子节点，采用同样方法进行搜索；

(2)针对切分过程，利用篇章衔接性理论对依存句法树中前后谓词节点是否存在前后句缺陷设备描述替换、缺陷谓词省略和程度修饰衔接情况，利用词向量映射模型结合电力同义词表计算缺陷设备和缺陷描述谓词的语义相似度，判断是否存在替换和省略的情况；分析根节点的动词子节点和根节点的依存关系是否为状中关系或并列关系，判断是否存在程度修饰的语义衔接情况；若都不存在，则将以该动词为根的子树切分为独立子树，并将被切分子树前的末尾标点删除，消除前一棵树切分后末尾标点对其语义独立性的影响；

(3)针对重构过程，主要是针对被切分独立子树恢复其主语部分，若被切分子树本身含有主语部分，则在国家电网给出的标准中搜索其上级设备分层描述并补全，若不含，则将原树中与根节点为主谓关系的节点为根的子树，作为被切分子树的主语；

步骤3. 对待匹配缺陷文本依存句法树和目标标准文本依存句法树进行匹配，具体是：

为避免引入基于操作策略匹配算法的冗余操作问题，构建两棵树的公共匹配节点序列计算两棵树的相似性；保留待匹配节点和目标节点之间祖先-后代关系，同时允许待匹配树存在冗余节点，保证匹配的松弛性；

根据两棵树的公共匹配节点序列，计算缺陷文本句法树和标准文本句法树的相似度，确定实际缺陷文本和标准文本的对应关系，从而辨识出实际缺陷文本中蕴含的缺陷信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910215568.8/1.html，转载请声明来源钻瓜专利网。

上一篇：基于特征编码的文本特征提取方法、系统、装置
下一篇：一种基于通用语言特征的生物医学命名实体识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]电网设备缺陷文本的信息辨识方法有效

专利文献下载