[发明专利]一种基于神经语义解析的金融文本公式抽取方法及装置有效
申请号: | 202110571085.9 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113254581B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 李东方;金能征;黄佳洋;陈清财;丘宇彬;陈枫;宋自文;张亚军;朱易文;徐维黛 | 申请(专利权)人: | 深圳市图灵机器人有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 刘文求;朱阳波 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经 语义 解析 金融 文本 公式 抽取 方法 装置 | ||
1.一种基于神经语义解析的金融文本公式抽取方法,其特征在于,所述方法包括如下步骤:
定义抽象语法:定义金融公式的抽象语法描述,用于描述所述金融公式所对应的抽象语法;
输入待抽取文本:所述待抽取文本为蕴含所述金融公式的自然语言描述文本;
金融实体识别:对所述待抽取文本进行命名实体识别,识别出所述待抽取文本中包含的所有用于组成所述金融公式的金融实体,并标注所述金融实体在所述金融公式中的成分类别;
融合类别向量的编码器特征提取:对所述待抽取文本中的所述金融实体和其它词语构建语义表示向量,对所述金融实体分别构建表示其成分类别的类别表示向量,对所有其它词语按照同一个类别构建类别表示向量,将所述待抽取文本的词序列中每个所述金融实体及其它词语的所述语义表示向量与所述类别表示向量进行拼接后,按顺序输入到融合类别向量的编码器中,获取所述编码器输出的与所述待抽取文本对应的隐藏状态序列;
基于语法树的解码器进行解码:定义所述解码器的输出为所述金融公式对应的抽象语法树的一组构造动作,所述构造动作用于重建所述抽象语法树,在解码过程中的每一个时间步,以所述编码器的所有隐藏状态序列作为键值对,计算所述解码器当前时间步的隐藏状态对应的注意力向量,基于所述注意力向量计算所有可能的抽象语法树的构造动作的概率,将所有可能的构造动作中符合语法限制规则且对应的概率最大者作为所述当前时间步的解码器的输出;
金融公式语法树的构造:基于构造动作列表构造所述金融公式对应的抽象语法树,其中,所述构造动作列表包括所述解码器输出的所有构造动作;
形式化金融公式的生成:对所述金融公式的抽象语法树进行深度优先搜索,将每个节点和边进行拼接,获得所述形式化金融公式。
2.根据权利要求1所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述定义抽象语法包括如下步骤:
分析业务需求:根据实际业务场景,获取目标公式的类型;
定义变量类型:根据所述目标公式的类型定义对应的变量类型,所述变量类型是所述金融实体的类型;
定义产生式:定义抽象语法的产生式,以定义构造动作的数量和类型。
3.根据权利要求1所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述金融实体识别包括如下步骤:
微调获取命名实体识别模型:对包含金融公式的自然语言描述文本中的命名实体进行标注,获取由多条文本组成的初始数据集并将所述初始数据集划分为训练集、验证集和测试集,获取预训练模型,在所述训练集上结合所述验证集和所述测试集对所述预训练模型进行微调,将微调后的所述预训练模型作为命名实体识别模型;
金融实体信息识别:使用所述命名实体识别模型对所述待抽取文本进行命名实体识别,得到所述金融实体的位置和类别。
4.根据权利要求3所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述融合类别向量的编码器特征提取包括如下步骤:
语义表示向量的生成:将所述命名实体识别模型所识别出的每一个金融实体分别作为一个词,除所述金融实体外的其它所有字符,每个字符均当作一个词,按词在所述待抽取文本中的顺序对词进行排列得到一组词序列,将所述词序列进行向量化,得到语义表示向量;
类别表示向量的生成:将所述命名实体 识别模型识别出的每一个金融实体的类别分别作为对应的词的类别,除所述金融实体外的其它词的类别均标记为None,按所述词序列的顺序排列所述类别,得到一组类别序列,将所述类别序列进行向量化,得到类别表示向量;
语义表示向量与类别表示向量的拼接:将各所述金融实体及其它字符的语义表示向量和类别表示向量进行拼接,得到目标输入向量;
编码器隐藏状态的计算:将所述目标输入向量输入到编码器中,得到与所述词序列相对应的隐藏状态序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市图灵机器人有限公司,未经深圳市图灵机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110571085.9/1.html,转载请声明来源钻瓜专利网。