[发明专利]一种基于命名实体的公文判定方法及判定系统有效
申请号: | 202010734108.9 | 申请日: | 2020-07-28 |
公开(公告)号: | CN111626057B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 李欢丽;张玉林;刘胜平;苗功勋 | 申请(专利权)人: | 南京中孚信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 南京中盟科创知识产权代理事务所(特殊普通合伙) 32279 | 代理人: | 江冬萍 |
地址: | 210000 江苏省南京市浦口区江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 命名 实体 公文 判定 方法 系统 | ||
本发明公开了一种基于命名实体的公文判定方法及判定系统,该判定方法包括以下步骤:S1、采用预设方法对公文实体权重进行训练,并赋予每个公文实体相应的权重值;S2、获取待判定文本,并采用预设方法对待判定文本进行公文实体提取;S3、将待判定文本转化为关于公文实体的向量,并采用预设方法计算向量的分值;S4、将分值与预先设定的阀值进行对比,当分值超过阀值时,则确定待判定文本为公文;该判定系统包括公文实体提取模块、公文实体权重训练模块和公文判定模块。有益效果:不仅解决了以往公文识别过程中特征词穷举不尽的现象,而且也解决了公文内容随着时代变迁词语的变化问题。
技术领域
本发明涉及计算机算法技术领域,具体来说,涉及一种基于命名实体的公文判定方法及判定系统。
背景技术
随着大数据时代的到来,电子公文和其他文种的文件充斥在互联网上。其中可能存在一些涉密文件,而公文作为党政机关进行日期工作的主要方式,是涉密文件最主要的来源。为确保国家保密工作的安全,从海量的文件中识别出公文刻不容缓。
目前公文判定的方法分为两类,一类是依据相关格式规定,如规定中对格式的要求可以分为版头、主题、版记、页码四个部分,进行公文判定。另一类是分类的思想,首先对公文文件和非公文进行训练,选取特征词向量,对待判定文档打分,分数大于预设阈值即判定为公文。
然而,第一种方法的缺点是若公文写作未按照相关规定书写,或者公文在流传过程中,原有格式丢失时,这种方法就不能有效筛选出公文。第二中方法的缺点是相关条例中规定的公文种类有15种,不同文种公文的特征词向量差异很大;另外,非公文文件数量更多,涉及范围更广,比如政治、经济、文化等。所以,很难获取适应不同行业范围的统一的特征词向量,使得公文判定准确率较低。
发明内容
针对相关技术中的问题,本发明提出一种基于命名实体的公文判定方法及判定系统,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
根据本发明的一个方面,提供了一种基于命名实体的公文判定方法,该判定方法包括以下步骤:
S1、采用预设方法对公文实体权重进行训练,并赋予每个所述公文实体相应的权重值;
S2、获取待判定文本,并采用预设方法对所述待判定文本进行公文实体提取;
S3、将所述待判定文本转化为关于所述公文实体的向量,并采用预设方法计算所述向量的分值;
S4、将所述分值与预先设定的阀值进行对比,当所述分值超过所述阀值时,则确定所述待判定文本为公文;
其中,所述向量为t=(t1,t2,t3,t4,t5,t6,t7,t8),且计算所述向量的分值采用分值计算公式进行计算。
进一步的,所述S1采用预设方法对公文实体权重进行训练,并赋予每个所述公文实体相应的权重值包括以下步骤:
S11、获取相同数量的公文及非公文文本,并通过训练得到每篇文本的公文实体;
S12、赋予每个所述公文实体相应的权重值,记为权向量w=(1.0,1.0,0.6,1.0,0.8,1.0,1.0,1.0)。
进一步的,所述S2中采用预设方法对所述待判定文本进行公文实体提取包括以下步骤:
S21、对所述待判定文本进行秘密等级识别;
S22、对所述待判定文本进行公文标题识别;
S23、对所述待判定文本进行签发人识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中孚信息技术有限公司,未经南京中孚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010734108.9/2.html,转载请声明来源钻瓜专利网。