[发明专利]一种自动识别财税文件中征税对象的抽取方法在审
申请号: | 202110121720.3 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112733526A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 胥博;尹川;胡艳;汤朝强;陈婷婷;胡丽梅 | 申请(专利权)人: | 成都不问科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06Q40/00 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 李蕊 |
地址: | 610041 四川省成都市中国(四川)自由*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动识别 财税 文件 征税 对象 抽取 方法 | ||
1.一种自动识别财税文件中征税对象的抽取方法,其特征在于,包括以下步骤:
S1、构建征税对象抽取模型;
S2、将涉税语料数据文本序列输入征税对象抽取模型中,得到预测的征税对象。
2.根据权利要求1所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S2中征税对象抽取模型包括:12层的bert模型、bilstm模型、全连接层和新型CRF模型。
3.根据权利要求2所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S2包括以下分步骤:
S21、将涉税语料数据文本序列输入12层的bert模型进行处理,得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征;
S22、将语义信息特征输入bilstm模型,得到语义信息特征概率分布其中,为语义信息特征,X为涉税语料数据文本序列,P(·)为概率密度函数;
S23、根据句法信息特征,计算句法特征概率分布P(Z|X),其中,Z为句法信息特征;
S24、将语义信息特征概率分布和句法特征概率分布P(Z|X)输入新型CRF模型中,通过机器迭代求得新型CRF模型最优解,得到预测的征税对象。
4.根据权利要求2所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S22中语义信息特征概率分布的计算公式为:
其中,Zi为句法信息特征样本空间中的一个值,i为句法信息特征样本空间中第i个句法信息特征样本。
5.根据权利要求2所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S23包括以下分步骤:
S231、将句法信息特征沿着句法信息特征矩阵行的方向切分成2S个(n/2S)*d的小矩阵其中,n为句法信息特征矩阵的行数,S为切分参数,d为句法信息特征矩阵的列数,为第个小矩阵;
S232、采用d*p的参数矩阵W对每个小矩阵进行线性变换,得到线性变换量数据矩阵p为参数矩阵W的列数;
S233、对每个线性变换量数据矩阵做全局mean-pool处理,得到2S个句法信息特征向量;
S234、将2S个句法信息特征向量构建为一个2S*p的第一句法信息特征向量矩阵;
S235、沿着第一句法信息特征向量矩阵的行方向对第一句法信息特征向量矩阵的相邻的两个句法信息特征向量进行mean-pool处理,得到S*P的第二句法信息特征向量矩阵,P为第二句法信息特征向量矩阵的列数;
S236、将第二句法信息特征向量矩阵输入全连接层中,得到全连接层输出向量F;
S237、计算全连接层输出向量F的句法特征概率分布P(Z|X)。
6.根据权利要求3所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S237中句法特征概率分布P(Z|X)的计算公式为:
其中,F=(f1,…,fk,…,fK),全连接层输出向量F为K维向量,K为句法特征类型个数,fk为全连接层输出向量F的第k个元素,Z为句法信息特征。
7.根据权利要求2所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S24中新型CRF模型的目标优化函数为:
其中,γ为目标优化函数,Y为征税对象文本序列,K为句法特征类型个数,P(Zi|X)为句法特征概率分布中第i个向量,为索引为i的句法信息特征zi条件下的初始概率分布,为索引为i的句法信息特征zi条件下的状态转移矩阵;为新型CRF模型第一特征函数,为新型CRF模型第二特征函数,第一特征函数与第二特征函数线性无关,均为单限幅函数;X为涉税语料数据文本序列,为征税对象文本序列中的第个元素,l为初始状态类型的参数,h为转移矩阵中转移类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都不问科技有限公司,未经成都不问科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110121720.3/1.html,转载请声明来源钻瓜专利网。