[发明专利]一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统在审

专利信息
申请号: 202010318430.3 申请日: 2020-04-21
公开(公告)号: CN111553158A 公开(公告)日: 2020-08-18
发明(设计)人: 范士雄;林静怀;徐郑崎;范海威;冯长有;韩晔;吴炜;皮俊波;王晶;刘幸蔚;李立新;於益军;廖志芳;赵祎祺;宋耀伦;吴锟;闫丽芬 申请(专利权)人: 中国电力科学研究院有限公司;国家电网有限公司;国网福建省电力有限公司;中南大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/242;G06N3/04;G06N3/08;G06Q50/06
代理公司: 北京宝护知识产权代理有限公司 11703 代理人: 张弘
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bilstm crf 模型 电力 调度 领域 命名 实体 识别 方法 系统
【权利要求书】:

1.一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,该方法包括:

步骤S100.对原始语料进行分词,以构造出词语边界明确的电力调度实体词典;

步骤S200.对所述电力调度实体词典中的词语进行词角色标注,并将标注后的内容转化为符合所述BiLSTM-CRF模型输入格式的第一标注结果;

步骤S300.以所述BiLSTM-CRF模型为基础对所述第一标注结果进行识别并输出第二标注结果;

步骤S400.从所述第二标注结果中还原识别出所述电力调度领域的命名实体。

2.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述步骤S100具体包括:

步骤S101.原始语料经基于互信息和左右熵的短语提取算法处理,得到固定长度文本片段的互信息值和左右熵;

步骤S102.根据互信息和左右熵对文本短语进行评分并排名;

步骤S103.提取排名靠前的短语加入结巴分词词典进行文本分词,根据分词结果调整短语评分,得到词语边界明确的电力调度实体词典。

3.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述词角色的类型包括调度机构SM、调度人员SP、调度操作SO、电力设施设备FAC、调度管理要求MR、电力资料EPD、调度条件SC、设备状态ES。

4.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,步骤200中采用BMESO标注模型所述电力调度实体词典中的词语进行词角色标注;BMESO标注模型定义如下:

B表示实体首部字;M表示实体内部字;E表示实体尾部字;S表示单字实体字;O表示非实体构成字。

5.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述将标注后的内容转化为符合所述BiLSTM-CRF模型输入格式的第一标注结果,具体包括:提取标准后的内容中的每个字符和字符的标签,将其加入“字符”和“字符标签”两个数组,如果该字符为预设字符,删除该字符及其字符标签,利用pad_sequences函数,将得到的数组转化为符合所述BiLSTM-CRF模型输入格式的第一标注结果。

6.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述预设字符为“,。!?:‘’:;、.”。

7.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述步骤S300具体包括:

步骤S301.加载预训练好的字向量,并使用样本数据到字向量中查表,生成训练用的字向量矩阵;

步骤S302.将字向量矩阵作为embedding层输入,经过Bi-LSTM层进行编码,Bi-LSTM层的输出为字的每一个标签分值,通过挑选标签分值最高的作为该字的标签;

步骤S303.引入CRF层,进行句子级的序列标注。

8.根据权利要求7所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述经过Bi-LSTM层进行编码处理包括:经过Bi-LSTM层自动提取句子特征,将一个句子的各个字的char embedding序列(x1,x2,x3,…,xn)作为Bi-LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列:Bi-LSTM层的输出为字的每一个标签分值,最后通过挑选标签分值最高的作为该字的标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网有限公司;国网福建省电力有限公司;中南大学,未经中国电力科学研究院有限公司;国家电网有限公司;国网福建省电力有限公司;中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010318430.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top