[发明专利]一种基于序列标注的事件抽取方法在审
申请号: | 201711113722.8 | 申请日: | 2017-11-13 |
公开(公告)号: | CN107797993A | 公开(公告)日: | 2018-03-13 |
发明(设计)人: | 赵二超;韩伟 | 申请(专利权)人: | 成都蓝景信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 成都中亚专利代理有限公司51126 | 代理人: | 王岗 |
地址: | 610000 四川省成都市武侯区武侯*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于序列标注的事件抽取方法,包括以下几个步骤步骤1,对输入文本进行预处理;步骤2,利用LSTM+CRF网络对文本的字序列进行标注;步骤3,归并标注结果,得到事件元素;步骤4,将提取出的事件及其元素填充到设计好的模板,形成一句话描述。其主要解决的问题是如何从上市公司各类重大事项的公告中,抽取出贷款、合并等事件并给出人类语言形式描述。节约了金融从业人员每天阅读大量的公司公告的人力成本。 | ||
搜索关键词: | 一种 基于 序列 标注 事件 抽取 方法 | ||
【主权项】:
一种基于序列标注的事件抽取方法,其特征在于:包括以下几个步骤:步骤1,对输入文本进行预处理,过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声;将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子,以便模型高效地处理;步骤2,利用LSTM+CRF网络对文本的字序列进行标注;经过大量的参数调整,最终确定单层双向LSTM网络结构;双向的优势在于能够同时根据上文和下文对当前字符所属类型进行判断;单层是试验对比过1到4层之后选取的最优结果。由于利用了SSL损失函数,LSTM的结果需要利用维特比算法进行解码,得到句子级别的最优标注结果;步骤3,归并标注结果;将标注结果中同类型且连续的标注提取出来,并保留具有完整的“B”到“E”标记的结果作为识别到的实体,将实体中“公司”替换发布公告的公司名;步骤4,形成一句话描述;将提取出的事件及其元素填充到设计好的模板。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都蓝景信息技术有限公司,未经成都蓝景信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711113722.8/,转载请声明来源钻瓜专利网。
- 上一篇:命名实体识别方法及装置
- 下一篇:一种中英文片段语料生成方法