[发明专利]一种衡量公文相似性的方法有效

专利信息
申请号: 201811361247.0 申请日: 2018-11-15
公开(公告)号: CN109582759B 公开(公告)日: 2021-10-22
发明(设计)人: 李泽源;方鑫;王鹏;陈达纲;宋亚军;李泽松 申请(专利权)人: 中电科大数据研究院有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/36
代理公司: 贵州派腾知识产权代理有限公司 52114 代理人: 谷庆红
地址: 550000 贵州省贵阳市贵阳*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 衡量 公文 相似性 方法
【权利要求书】:

1.一种衡量公文相似性的方法,其特征在于:包括以下步骤:

①构建本体知识库:构建政府机关单位和党政公文主题的本体知识库;

②党政公文文本预处理:抽取需要对比相似性的两篇公文中的四类信息:机关单位信息、主题信息、体裁信息、发文日期信息;

③计算四类信息的相似性:分别计算两篇公文的机关单位相似性、主题相似性、体裁相似性、发文日期相似性;

④计算公文剩余内容的相似性:将除了机关单位、公文主题、体裁、发文日期之外的文本信息,通过doc2vec计算相似性;

⑤公文相似性:将③和④中的相似性进行加权求和,获取两篇公文的相似性;

所述步骤③中,基于本体知识库,计算机关单位相似性Sdep(ex,ey)的计算公式为:

Sdep(ex,ey)=1-d(ex,ey);

其中,ex,ey是机关单位,d(ex,ey)是ex,ey在本体知识库中的距离;

所述d(ex,ey)的计算公式为:

其中,d(root,x)代表节点x到本体知识库根节点的距离,d(root,y)代表节点y到本体知识库根节点的距离,d(lca(x,y),x)代表节点x到x与y的共同最近节点间的距离,d(lca(x,y),y)代表节点y到x与y的共同最近节点间的距离;

当一篇公文中含有多个机关单位时,两篇公文中机关单位信息相似性Sdep(i,j)的计算公式为:

其中,ei,m是公文i中的第m个机关单位,∈j,m是公文j中离公文i中第m个机关单位最近的机关单位,M是在公文i中出现的部门实体总数,N是在公文j中出现的部门实体总数,d(ei,m,∈j,m)是机关单位ei,m与∈j,m在本体知识库中的距离,d(ej,m,∈i,m)是ej,m与∈i,m在本体知识库中的距离。

2.如权利要求1所述的衡量公文相似性的方法,其特征在于:所述步骤②分为以下步骤:

(2.1)获取机关单位信息:通过正则匹配,抽取公文中的发文机关、收文机关;

(2.2)获取公文主题信息:从政府文件中抽取标题和前两段,匹配并丢弃机关单位信息,再进行基本的文本预处理;

(2.3)获取体裁信息:根据体裁的具体作用,将体裁分为细分体裁,通过正则匹配,确定公文体裁信息;

(2.4)获取发文日期信息:通过正则匹配公文中的时间。

3.如权利要求2所述的衡量公文相似性的方法,其特征在于:所述步骤(2.2)中,文本预处理分为以下步骤:

(2.2.1)对剩余文本进行分词和消除停用词,仅包含在所有文档语料库中仅出现一次的数字和单词的单词;

(2.2.2)从剩余的词中匹配主题本体库中的关键字,确定政府文档的主题标签。

4.如权利要求2所述的衡量公文相似性的方法,其特征在于:所述步骤(2.3)中,体裁根据《党政机关公文格式》分为15种,每种体裁根据具体作用再细分一级,成细分体裁。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811361247.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top