[发明专利]一种基于命名实体的公文判定方法及判定系统有效

申请号：	202010734108.9	申请日：	2020-07-28
公开（公告）号：	CN111626057B	公开（公告）日：	2020-10-30
发明（设计）人：	李欢丽;张玉林;刘胜平;苗功勋	申请（专利权）人：	南京中孚信息技术有限公司
主分类号：	G06F40/295	分类号：	G06F40/295
代理公司：	南京中盟科创知识产权代理事务所(特殊普通合伙) 32279	代理人：	江冬萍
地址：	210000 江苏省南京市浦口区江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于命名实体公文判定方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于命名实体的公文判定方法及判定系统，该判定方法包括以下步骤：S1、采用预设方法对公文实体权重进行训练，并赋予每个公文实体相应的权重值；S2、获取待判定文本，并采用预设方法对待判定文本进行公文实体提取；S3、将待判定文本转化为关于公文实体的向量，并采用预设方法计算向量的分值；S4、将分值与预先设定的阀值进行对比，当分值超过阀值时，则确定待判定文本为公文；该判定系统包括公文实体提取模块、公文实体权重训练模块和公文判定模块。有益效果：不仅解决了以往公文识别过程中特征词穷举不尽的现象，而且也解决了公文内容随着时代变迁词语的变化问题。

技术领域

本发明涉及计算机算法技术领域，具体来说，涉及一种基于命名实体的公文判定方法及判定系统。

背景技术

随着大数据时代的到来，电子公文和其他文种的文件充斥在互联网上。其中可能存在一些涉密文件，而公文作为党政机关进行日期工作的主要方式，是涉密文件最主要的来源。为确保国家保密工作的安全，从海量的文件中识别出公文刻不容缓。

目前公文判定的方法分为两类，一类是依据相关格式规定，如规定中对格式的要求可以分为版头、主题、版记、页码四个部分，进行公文判定。另一类是分类的思想，首先对公文文件和非公文进行训练，选取特征词向量，对待判定文档打分，分数大于预设阈值即判定为公文。

然而，第一种方法的缺点是若公文写作未按照相关规定书写，或者公文在流传过程中，原有格式丢失时，这种方法就不能有效筛选出公文。第二中方法的缺点是相关条例中规定的公文种类有15种，不同文种公文的特征词向量差异很大；另外，非公文文件数量更多，涉及范围更广，比如政治、经济、文化等。所以，很难获取适应不同行业范围的统一的特征词向量，使得公文判定准确率较低。

发明内容

针对相关技术中的问题，本发明提出一种基于命名实体的公文判定方法及判定系统，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

根据本发明的一个方面，提供了一种基于命名实体的公文判定方法，该判定方法包括以下步骤：

S1、采用预设方法对公文实体权重进行训练，并赋予每个所述公文实体相应的权重值；

S2、获取待判定文本，并采用预设方法对所述待判定文本进行公文实体提取；

S3、将所述待判定文本转化为关于所述公文实体的向量，并采用预设方法计算所述向量的分值；

S4、将所述分值与预先设定的阀值进行对比，当所述分值超过所述阀值时，则确定所述待判定文本为公文；

其中，所述向量为t＝(t₁，t₂，t₃，t₄，t₅，t₆，t₇，t₈)，且计算所述向量的分值采用分值计算公式进行计算。

进一步的，所述S1采用预设方法对公文实体权重进行训练，并赋予每个所述公文实体相应的权重值包括以下步骤：

S11、获取相同数量的公文及非公文文本，并通过训练得到每篇文本的公文实体；

S12、赋予每个所述公文实体相应的权重值，记为权向量w＝(1.0，1.0，0.6，1.0，0.8，1.0，1.0，1.0)。