[发明专利]一种面向税务领域知识图谱的构建方法有效
申请号: | 202010238326.3 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111428053B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 郑庆华;董博;李睿;师斌;吴琰 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/21;G06F16/951;G06F40/295;G06Q40/10;G06Q50/26 |
代理公司: | 北京鑫瑞森知识产权代理有限公司 11961 | 代理人: | 刘晶 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 税务 领域 知识 图谱 构建 方法 | ||
1.一种面向税务领域知识图谱的构建方法,其特征在于,包括以下步骤:
(1)构建税务知识图谱模式图
首先税务专家系统根据输入的税务知识确定税务知识图谱整体的概念,将税务知识图谱形式化定义为一张图G,G=Gs,Gd,R,其由税务模式图Gs、税务数据图Gd以及二者之间的关系R组成;税务模式图是描述税务领域中各种抽象概念及其相互之间关系的图,形式化定义为Gs=Ns,Es,其中Ns为图中的结点集合代表税务图谱中税务抽象概念,Es为属性边集合代表概念之间的语义关系,之后将确定的税务抽象概念按照层次关系填入税务模式图中;
(2)数据处理
税务知识图谱中包含的税务数据来源于发票信息、纳税人基本信息、中国税务网站、国家税法教材、国家税务术语集以及税收优惠案例;这些税务数据包含结构化数据、半结构化数据和非结构化数据,按照数据类型收集、整理、存储和清洗数据;
(3)税务数据信息抽取
信息抽取将处理后的数据作为输入,抽取的目标是抽取出形为E,或实体、关系和属性/实体的三元组;根据数据源的不同制定的抽取方法有:有基于规则的方法和基于统计模型和深度学习的方法;
(4)税务知识融合
税务知识图谱的构建是一个不断迭代不断更新的过程,由于数据源不同、知识库不同导致税务知识图谱中的数据具有多样性和异构性;由步骤(2)得到的发票信息和纳税人基本信息作为数据采用上述步骤构建出企业生产经营知识图谱和产业链图谱,作为税务知识图谱的子图;
(5)税务知识反馈
当构建税务知识图谱过程中出现数据冲突、知识质量难以确定以及知识无法抽取问题时税务知识反馈具体的方法是将问题收集起来分门别类转发到专家系统中,由税务专家系统给出解决方案从而保证知识库的质量。
2.根据权利要求1所述的一种面向税务领域知识图谱的构建方法,其特征在于,步骤(2)中的具体实现方法包括以下步骤:
(201)将结构化数据即发票、纳税人基本信息存储到关系型数据库中
纳税人基本信息表刻画出企业生产经营的详细状况,发票反映纳税人之间的交易关系事实即产业链流动情况;首先将纳税人基本信息存储到Mysql数据库中,之后将于纳税人基本信息中的id字段对应于发票的外键按照规格存储到Mysql数据库中;
(202)爬取搜集关于中国税务的相关网站网址
首先利用爬虫技术搜集所有有关于中国税务相关网站的网址,之后将这些网址按照信任度等级排序,最后去除信任度低于80%的网址并存储;
(203)收集整理国家税法教材、国家税务术语集以及税收优惠案例
首先将统一所有非结构化数据的格式将其转换成文本文件存储,然后根据制定的模式图使用人工标注,最后将国家税务术语集使用Bert工具将文字预训练产生词向量文件。
3.根据权利要求2所述的一种面向税务领域知识图谱的构建方法,其特征在于,步骤(3)中的信息抽取的具体流程如下:
(301)使用基于规则的方法抽取中国税务网页信息、国家税法教材信息
将数据处理中得到的信任度较高的中国税务网站的网址作为输入,使用有监督的机器学习技术,学习每个网站中标注好的网页的数据抽取规则,即包装器归纳法,抽取出税务关键词、税务关系词和税务属性词,从而对相似结构的web页面直接抽取出所需的三元组信息;接着,学习税法教材的半结构化信息比如章节标题、段落标题和层级关系学习到抽取规则,之后抽取所需的税务概念三元组信息;
(302)使用基于统计模型和深度学习的方法抽取
首先进行实体抽取,将税收优惠案例以及其他税务中的非结构化数据作为输入,如果有标注的数据则能够使用条件随机场模型、隐马尔可夫模型和最大熵模型统计模型抽取信息,如果没有标注数据则可以使用双向LSTM-CRF与双向LSTM-CNNs-CRF直接将词向量作为输入,通过端到端的方式输出词的新的向量再经过CRF层输出词的识别结果;接着使用正则表达式抽取分层结构或是通过无标签远程监督的方法抽取关系,最后属性抽取对于税务实体比如纳税人,抽取的内容有经营范围、信用等级和风险分值。
4.根据权利要求3所述的一种面向税务领域知识图谱的构建方法,其特征在于,子图与税务知识融合的具体方法如下:
首先对相似字符串计算编辑距离计算属性相似度,然后根据属性相似度采用回归或者聚类的方法计算实体相似度,最终达到税务知识融合的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010238326.3/1.html,转载请声明来源钻瓜专利网。