[发明专利]基于触发词语态学习的金融文本事件抽取方法有效
申请号: | 202110589745.6 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113312916B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 李建欣;李倩;司靖辉;孙睿;毛乾任;黄洪仁 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 触发 词语 学习 金融 文本 事件 抽取 方法 | ||
1.基于触发词语态学习的金融文本事件抽取方法,其特征在于:包括三个步骤:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取;
所述金融领域文本预训练步骤的实现方式为,首先进行金融领域标注数据集自动构建,之后结合金融知识图谱构建BERT预训练模型,以输入词序列作为模型输入,得到有对应实体的输出词作为输出结果,最后在金融文本训练集和金融知识图谱数据上进行再训练,得到适合下游事件分类和事件抽取的词表征和实体表征;
所述事件分类步骤根据所述金融领域文本预训练步骤生成的词表征做多标签多分类任务得到事件检测结果;
所述基于触发词语态学习的金融文本事件要素抽取步骤将每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算,其中元素值超过设定阈值即打上对应要素的标签。
2.如权利要求1所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述标注数据集自动构建的方法为:将现有非结构化金融新闻文本与结构化金融事件知识库进行对齐操作获得标注数据。
3.如权利要求2所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述BERT预训练模型由文本表征层和知识融合层构成,所述文本表征层采用BERT模型对输入词序列进行表征,通过多层的双向Transformer编码器来实现对于语义特征的提取并将得到的词序列输入所述知识融合层;所述知识融合层首先通过知识嵌入算法TransE得到结构化的知识编码实体序列,具体地,以{w1,…,wn}表示词序列的embedding,{e1,…,em}表示TransE得到的所述实体序列的embedding,两个序列各自通过多头注意力机制:
然后将上述得到的两个序列词表征和实体表征输入到信息融合模块计算:
对于有对应实体的词:
对于没有对应实体的词:
其中Wt代表隐藏层的权重,δ表示非线性激活函数。
4.如权利要求3所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述事件分类步骤根据预定义的事件分类标准,定义层级事件分类标签。
5.如权利要求4所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算的方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110589745.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能流行病学调查系统
- 下一篇:一种基于对话状态追踪技术的事件抽取方法