[发明专利]一种衡量公文相似性的方法有效
申请号: | 201811361247.0 | 申请日: | 2018-11-15 |
公开(公告)号: | CN109582759B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 李泽源;方鑫;王鹏;陈达纲;宋亚军;李泽松 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 贵州派腾知识产权代理有限公司 52114 | 代理人: | 谷庆红 |
地址: | 550000 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 衡量 公文 相似性 方法 | ||
1.一种衡量公文相似性的方法,其特征在于:包括以下步骤:
①构建本体知识库:构建政府机关单位和党政公文主题的本体知识库;
②党政公文文本预处理:抽取需要对比相似性的两篇公文中的四类信息:机关单位信息、主题信息、体裁信息、发文日期信息;
③计算四类信息的相似性:分别计算两篇公文的机关单位相似性、主题相似性、体裁相似性、发文日期相似性;
④计算公文剩余内容的相似性:将除了机关单位、公文主题、体裁、发文日期之外的文本信息,通过doc2vec计算相似性;
⑤公文相似性:将③和④中的相似性进行加权求和,获取两篇公文的相似性;
所述步骤③中,基于本体知识库,计算机关单位相似性Sdep(ex,ey)的计算公式为:
Sdep(ex,ey)=1-d(ex,ey);
其中,ex,ey是机关单位,d(ex,ey)是ex,ey在本体知识库中的距离;
所述d(ex,ey)的计算公式为:
其中,d(root,x)代表节点x到本体知识库根节点的距离,d(root,y)代表节点y到本体知识库根节点的距离,d(lca(x,y),x)代表节点x到x与y的共同最近节点间的距离,d(lca(x,y),y)代表节点y到x与y的共同最近节点间的距离;
当一篇公文中含有多个机关单位时,两篇公文中机关单位信息相似性Sdep(i,j)的计算公式为:
其中,ei,m是公文i中的第m个机关单位,∈j,m是公文j中离公文i中第m个机关单位最近的机关单位,M是在公文i中出现的部门实体总数,N是在公文j中出现的部门实体总数,d(ei,m,∈j,m)是机关单位ei,m与∈j,m在本体知识库中的距离,d(ej,m,∈i,m)是ej,m与∈i,m在本体知识库中的距离。
2.如权利要求1所述的衡量公文相似性的方法,其特征在于:所述步骤②分为以下步骤:
(2.1)获取机关单位信息:通过正则匹配,抽取公文中的发文机关、收文机关;
(2.2)获取公文主题信息:从政府文件中抽取标题和前两段,匹配并丢弃机关单位信息,再进行基本的文本预处理;
(2.3)获取体裁信息:根据体裁的具体作用,将体裁分为细分体裁,通过正则匹配,确定公文体裁信息;
(2.4)获取发文日期信息:通过正则匹配公文中的时间。
3.如权利要求2所述的衡量公文相似性的方法,其特征在于:所述步骤(2.2)中,文本预处理分为以下步骤:
(2.2.1)对剩余文本进行分词和消除停用词,仅包含在所有文档语料库中仅出现一次的数字和单词的单词;
(2.2.2)从剩余的词中匹配主题本体库中的关键字,确定政府文档的主题标签。
4.如权利要求2所述的衡量公文相似性的方法,其特征在于:所述步骤(2.3)中,体裁根据《党政机关公文格式》分为15种,每种体裁根据具体作用再细分一级,成细分体裁。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811361247.0/1.html,转载请声明来源钻瓜专利网。