[发明专利]一种基于序列标注的事件抽取方法在审
申请号: | 201711113722.8 | 申请日: | 2017-11-13 |
公开(公告)号: | CN107797993A | 公开(公告)日: | 2018-03-13 |
发明(设计)人: | 赵二超;韩伟 | 申请(专利权)人: | 成都蓝景信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 成都中亚专利代理有限公司51126 | 代理人: | 王岗 |
地址: | 610000 四川省成都市武侯区武侯*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 标注 事件 抽取 方法 | ||
1.一种基于序列标注的事件抽取方法,其特征在于:包括以下几个步骤:
步骤1,对输入文本进行预处理,过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声;将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子,以便模型高效地处理;
步骤2,利用LSTM+CRF网络对文本的字序列进行标注;经过大量的参数调整,最终确定单层双向LSTM网络结构;双向的优势在于能够同时根据上文和下文对当前字符所属类型进行判断;单层是试验对比过1到4层之后选取的最优结果。由于利用了SSL损失函数,LSTM的结果需要利用维特比算法进行解码,得到句子级别的最优标注结果;
步骤3,归并标注结果;将标注结果中同类型且连续的标注提取出来,并保留具有完整的“B”到“E”标记的结果作为识别到的实体,将实体中“公司”替换发布公告的公司名;
步骤4,形成一句话描述;将提取出的事件及其元素填充到设计好的模板。
2.根据权利要求1所述一种基于序列标注的事件抽取方法,其特征在于:对于步骤1来讲,同时用规则提前识别文中的数字实体,并用统一的符号代替,用于后续模型继续判断数字实体的子类型(金额、期限);该手段可以减轻模型负担及提升数字的识别效果。
3.根据权利要求1所述一种基于序列标注的事件抽取方法,其特征在于:对于步骤4来讲,核心算法模块的训练需要大量的人工标注数据;采用人工地标注了数千篇公司公告用以训练,使得模型能够很好地适应具体应用场景;另外,为了加快训练速度和增加泛化性,提前利用无监督的word2vec模型对大量无标注的公告进行训练,得到字向量,该字向量用于深度学习模型输入层的初始化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都蓝景信息技术有限公司,未经成都蓝景信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711113722.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:命名实体识别方法及装置
- 下一篇:一种中英文片段语料生成方法