[发明专利]一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统在审
申请号: | 202010318430.3 | 申请日: | 2020-04-21 |
公开(公告)号: | CN111553158A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 范士雄;林静怀;徐郑崎;范海威;冯长有;韩晔;吴炜;皮俊波;王晶;刘幸蔚;李立新;於益军;廖志芳;赵祎祺;宋耀伦;吴锟;闫丽芬 | 申请(专利权)人: | 中国电力科学研究院有限公司;国家电网有限公司;国网福建省电力有限公司;中南大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06N3/04;G06N3/08;G06Q50/06 |
代理公司: | 北京宝护知识产权代理有限公司 11703 | 代理人: | 张弘 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bilstm crf 模型 电力 调度 领域 命名 实体 识别 方法 系统 | ||
1.一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,该方法包括:
步骤S100.对原始语料进行分词,以构造出词语边界明确的电力调度实体词典;
步骤S200.对所述电力调度实体词典中的词语进行词角色标注,并将标注后的内容转化为符合所述BiLSTM-CRF模型输入格式的第一标注结果;
步骤S300.以所述BiLSTM-CRF模型为基础对所述第一标注结果进行识别并输出第二标注结果;
步骤S400.从所述第二标注结果中还原识别出所述电力调度领域的命名实体。
2.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述步骤S100具体包括:
步骤S101.原始语料经基于互信息和左右熵的短语提取算法处理,得到固定长度文本片段的互信息值和左右熵;
步骤S102.根据互信息和左右熵对文本短语进行评分并排名;
步骤S103.提取排名靠前的短语加入结巴分词词典进行文本分词,根据分词结果调整短语评分,得到词语边界明确的电力调度实体词典。
3.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述词角色的类型包括调度机构SM、调度人员SP、调度操作SO、电力设施设备FAC、调度管理要求MR、电力资料EPD、调度条件SC、设备状态ES。
4.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,步骤200中采用BMESO标注模型所述电力调度实体词典中的词语进行词角色标注;BMESO标注模型定义如下:
B表示实体首部字;M表示实体内部字;E表示实体尾部字;S表示单字实体字;O表示非实体构成字。
5.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述将标注后的内容转化为符合所述BiLSTM-CRF模型输入格式的第一标注结果,具体包括:提取标准后的内容中的每个字符和字符的标签,将其加入“字符”和“字符标签”两个数组,如果该字符为预设字符,删除该字符及其字符标签,利用pad_sequences函数,将得到的数组转化为符合所述BiLSTM-CRF模型输入格式的第一标注结果。
6.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述预设字符为“,。!?:‘’:;、.”。
7.根据权利要求1所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述步骤S300具体包括:
步骤S301.加载预训练好的字向量,并使用样本数据到字向量中查表,生成训练用的字向量矩阵;
步骤S302.将字向量矩阵作为embedding层输入,经过Bi-LSTM层进行编码,Bi-LSTM层的输出为字的每一个标签分值,通过挑选标签分值最高的作为该字的标签;
步骤S303.引入CRF层,进行句子级的序列标注。
8.根据权利要求7所述的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,其特征在于,所述经过Bi-LSTM层进行编码处理包括:经过Bi-LSTM层自动提取句子特征,将一个句子的各个字的char embedding序列(x1,x2,x3,…,xn)作为Bi-LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列:Bi-LSTM层的输出为字的每一个标签分值,最后通过挑选标签分值最高的作为该字的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国家电网有限公司;国网福建省电力有限公司;中南大学,未经中国电力科学研究院有限公司;国家电网有限公司;国网福建省电力有限公司;中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010318430.3/1.html,转载请声明来源钻瓜专利网。