[发明专利]政策文档的处理方法、装置、存储介质及电子设备在审
申请号: | 201911020604.1 | 申请日: | 2019-10-25 |
公开(公告)号: | CN110866116A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 李国栋;丁德智;李玫;张海俊 | 申请(专利权)人: | 远光软件股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 广东朗乾律师事务所 44291 | 代理人: | 杨焕军 |
地址: | 519000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 政策 文档 处理 方法 装置 存储 介质 电子设备 | ||
1.一种政策文档的处理方法,其特征在于,所述方法包括:
将政策文档进行分段得到多个段落;
提取所述段落的特征信息得到段落文本特征信息集;其中,所述特征信息包括格式信息和语义特征信息;
基于所述特征信息和多个分类算法对所述段落进行分类得到多个分类结果,以及对所述多个分类结果进行筛选得到所述段落的最终分类结果;
根据所述最终分类结果提取所述段落的基本属性的属性值。
2.根据权利要求1所述的方法,其特征在于,所述提取所述段落的特征信息得到段落文本特征信息集,包括:
通过Python的文档工具库提取所述段落的格式信息;其中,所述格式信息包括:字体大小、段落样式、对齐方式、字体粗细、段落字符数和标点符号数中的一种或多种;
通过正则表达式提取所述段落的语义特征信息;其中,所述语义特征信息包括:企事业单位标识、行政地区标识、发布机构标识、日期标识、发布日期标识中的一种或多种。
3.根据权利要求1或2所述的方法,其特征在于,所述多个分类算法包括:
Logistic回归分析算法、决策树算法、支持向量机SVM算法、K最邻近分类算法KNN和朴素贝叶斯算法。
4.根据权利要求1或2所述的方法,其特征在于,所述对所述多个分类结果进行筛选得到所述段落的最终分类结果,包括:
基于集成学习的Stacking算法对所述多个分类结果进行识别得到所述段落的最终分类结果。
5.根据权利要求1或2所述的方法,其特征在于,所述最终分类结果为发布机构、政策文号、政策文档名称、通知对象、抄送对象、发布日期和正文中的任意一个。
6.根据权利要求5所述的方法,其特征在于,
在所述段落的最终分类结果为政策文号时,所述段落的基本属性的属性值包括所述政策文号;或
在所述段落的最终分类结果为政策文档名称时,所述段落的基本属性的属性值包括所述政策文档名称;或
在所述段落的最终分类结果为正文时,所述段落的基本属性的属性值包括所述政策文档的引用政策文号。
7.根据权利要求1或2所述的方法,其特征在于,所述根据所述最终分类结果提取所述段落的基本属性的属性值,包括:
根据预存储或预配置的映射关系确定与所述最终分类结果关联的提取规则;其中,所述映射关系中不同的最终分类结果关联不同的提取规则;
根据所述提取规则提取所述段落的基本属性的属性值;
存储所述基本属性的属性值。
8.一种政策文档的处理装置,其特征在于,所述装置包括:
分段单元,用于将政策文档进行分段得到多个段落;
提取单元,用于提取所述段落的特征信息得到段落文本特征信息集;其中,所述特征信息包括格式信息和语义特征信息;
分类单元,用于基于所述特征信息和多个分类算法对所述段落进行分类得到多个分类结果,以及对所述多个分类结果进行筛选得到所述段落的最终分类结果;
提取单元,用于根据所述最终分类结果提取所述段落的基本属性的属性值。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的方法步骤。
10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~7任意一项的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于远光软件股份有限公司,未经远光软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911020604.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:包扎带分割机
- 下一篇:基于多模型的地下电缆故障预警方法和装置