[发明专利]一种政策文件结构化分解方法有效
申请号: | 201910766729.2 | 申请日: | 2019-08-19 |
公开(公告)号: | CN110609983B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 金耀初;何卫灵;刘华;张宏辉 | 申请(专利权)人: | 广州利科科技有限公司 |
主分类号: | G06F40/143 | 分类号: | G06F40/143;G06F40/151;G06F40/289;G06F40/211;G06F40/253 |
代理公司: | 广州智丰知识产权代理事务所(普通合伙) 44655 | 代理人: | 邱奕才 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 政策 文件 结构 化分 方法 | ||
1.一种政策文件结构化分解方法,其特征在于,所述方法包括:
步骤S1:获取语料集;
所述步骤S1包括:
步骤S1.1:从政策网站选取网页;
步骤S1.2:把网页定义为document,对document进行遍历获取文本数据;
步骤S1.3:根据获取的文本数据建立元素组集;
所述元素组集为:element(tuple1,tuple2……tuplen),tuplei={(tagi,datai|i=1,2,……n)},其中n为元素组的个数,i表示元素组编号,tagi表示第i个元素组内的html标签,datai表示第i个元素组内的html内容;
步骤S2:对语料集进行预处理;
步骤S3:构建篇章结构树;
步骤S4:构建政策条件树;
所述步骤S4包括:
步骤S4.1:提取树节点中与政策条款相关的文本区域;
步骤S4.2:使用词性的组合模板过滤文本区域内的文本;
步骤S4.3:对过滤后的文本进行词性分析;
步骤S4.4:根据分析结果对政策条款及条件进行抽取,根据政策条款及条件构建政策条件树;
所述政策条件树的树节点对应政策条款及政策条件,树节点之间的关联对应政策条款之间的关联或政策条款与政策条件之间的关联;
步骤S5:根据篇章结构树与政策条件树构建新的建构树,并且可视化。
2.根据权利要求1所述的一种政策文件结构化分解方法,其特征在于,所述步骤S2包括:
步骤S2.1:对语料集进行清洗;
步骤S2.2:对清洗后的语料集进行分词;
步骤S2.3:对分词后的语料集进行词性标注。
3.根据权利要求2所述的一种政策文件结构化分解方法,其特征在于,所述步骤S2.3的标注集为人民日报标注语料库。
4.根据权利要求1所述的一种政策文件结构化分解方法,其特征在于,所述步骤S3包括:
步骤S3.1:编写描述各级标题样式的正则表达式;
步骤S3.2:根据正则表达式,建立标题模板集。
步骤S3.3:使用标题模板集与元素组集进行匹配,若元素组内有本文内容符合正则表达式,执行步骤S3.4,否则执行步骤52.5;
步骤S3.4:在对应层构建新建节点,节点名为元素组符合正则表达式的文本内容,节点内存储文本内容对应的元素组;
步骤S3.5:将元素组合并到最临近节点元素组中;
步骤S3.6:各节点关联,形成结构树;
所述结构树的节点层次为对应的标题层次,节点之间的关联为元素组之间的关联。
5.根据权利要求1所述的一种政策文件结构化分解方法,其特征在于,所述步骤S4.1包括:
步骤S4.11:选取与政策条款相关的关键词;
步骤S4.12:编写描述政策关键词的正则表达式;
步骤S4.13:使用正则表达式匹配树节点中的文本;
步骤S4.14:从文本中选取与关键词相关的一个文本区域。
6.根据权利要求1所述的一种政策文件结构化分解方法,其特征在于,所述步骤S4.3还包括:对文本进行句法分析。
7.根据权利要求6所述的一种政策文件结构化分解方法,其特征在于,所述句法分析为依存句法分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州利科科技有限公司,未经广州利科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910766729.2/1.html,转载请声明来源钻瓜专利网。