[发明专利]一种自动识别财税文件中征税对象的抽取方法在审
申请号: | 202110121720.3 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112733526A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 胥博;尹川;胡艳;汤朝强;陈婷婷;胡丽梅 | 申请(专利权)人: | 成都不问科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06Q40/00 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 李蕊 |
地址: | 610041 四川省成都市中国(四川)自由*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动识别 财税 文件 征税 对象 抽取 方法 | ||
本发明公开了一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:S1、构建征税对象抽取模型;S2、将涉税语料数据文本序列输入征税对象抽取模型中,结合语义信息特征概率分布和句法特征概率分布,得到预测的征税对象;本发明解决了现有技术在税法领域对征税对象识别准确率低的问题。
技术领域
本发明涉及文本处理技术领域,具体涉及一种自动识别财税文件中征税对象的抽取方法。
背景技术
实体在文本中的引用有三种形式:命名性指称,名词性指称和代词性指称。一般的是抽取时间、机构名、人名、地名等,不同领域内可以定义领域内的实体类型。税法中的征税对象其实就一种领域内的实体。在涉税文件中征税对象可以是一个词,但更多的情形是一个连续词组。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。实体关系是指两个实体之间的关系。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
中文Bert模型就是一种基于深度学习方法的语言模型。Bert全称是Bidirectional Encoder Representation from Transformers。对大规模文本中的字按照一定比例随机被标记符号[MASK]替换后,另一方面训练的输入是句子A和B,经过对文本数据顺序处理后,B有一半的几率是A的下一句。通过这些数据让Bert训练并预测[MASK]位置的真实字和判断B是否是原始文本中A的下一句。通过这个方法,可以训练到一个字向量。这些字向量是从大规模文本中学到的,因此包含了从大规模文件中学习到的语义信息,通过这样一种无监督的学习方法就可以字,词,句的语言信息表达为向量。在自然语言处理任务中,应用bert编码每个字或句子的向量特征作为下游任务的输入取得了一系列惊艳的结果。
征税对象抽取和命名实体任务相同都属于序列标注任务,在常见的命名实体任务中常用的方案是bilstm-crf,输入序列经过bilstm(双向长短时记忆网络)编码后,将编码信息输入到crf层(条件随机场)做序列标注;另一种方案是文本序列经过bert编码输出每个位置上字的向量表达特征,将向量作为bilstm-crf网络的输入,最后得到预测结果。虽然这两种方法在通用领域的命名实体任务取得不错的效果,但是在税法领域内,存在一些问题:不同于常见的命名实体,征税对象实体不是一个词,更多是由几个词,甚至几个词组构成的,因此在较长的征税对象任务中出现序列标注错误的现象。要提高模型识别准确率,必须要将其他维度的信息考虑进模型中。
发明内容
针对现有技术中的上述不足,本发明提供的一种自动识别财税文件中征税对象的抽取方法解决了现有技术在税法领域对征税对象识别准确率低的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:
S1、构建征税对象抽取模型;
S2、将涉税语料数据文本序列输入征税对象抽取模型中,得到预测的征税对象。
进一步地:步骤S2中征税对象抽取模型包括:12层的bert模型、bilstm模型、全连接层和新型CRF模型。
进一步地:步骤S2包括以下分步骤:
S21、将涉税语料数据文本序列输入12层的bert模型进行处理,得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征;
S22、将语义信息特征输入bilstm模型,得到语义信息特征概率分布其中,为语义信息特征,X为涉税语料数据文本序列,P(·)为概率密度函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都不问科技有限公司,未经成都不问科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110121720.3/2.html,转载请声明来源钻瓜专利网。