[发明专利]一种文档主题词自动提取方法有效
申请号: | 201910028660.3 | 申请日: | 2019-01-11 |
公开(公告)号: | CN109726402B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 陈雍君 | 申请(专利权)人: | 中国电子科技集团公司第七研究所 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510310 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种文档主题词自动提取方法的实现方法是一种非监督的方法,全程不需要人为干涉,从主题的划分还是关联词的寻找,都是根据文章自身的词语特征形成的;本发明提出了关联度来衡量主题词的关系,这种关联度充分考虑了共现度和词语间的互信息两种情况;本发明采用重叠矩阵来划分文章的主题,CPM算法作为社团划分的主流,用派系变异系数来衡量词语关联的稳定性,更有助于划分有效稳定的主题;采用重叠社区划分后结果的不同主题簇之间的连接词来反映不同主题之间的连接特征,这种连接特很好反映不同主题之间的承上启下的作用,有助于文章摘要顺序的生成。 | ||
搜索关键词: | 一种 文档 主题词 自动 提取 方法 | ||
【主权项】:
1.一种文档主题词自动提取方法,其特征在于,包括以下步骤:S1.对文档进行预处理,包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集;S2.利用词汇之间的关联关系衡量文本主题词关联度;S3.构建词汇的网络空间模型,词的空间模型以词为节点,以关联性作为边的无向派系网络;S4.采用派系过滤算法对词的网络空间模型图进行重叠社区划分;S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系;S42.构建基于词间关联性的带权派系,用派系变异系数来衡量词语关联稳定性;S5.根据S4所得的所有带权派系,建立带权派系重叠矩阵;S6.根据输入值k和带权派系重叠矩阵,构建带权派系连接矩阵,产生k个主题划分结果,即形成k个主题簇,构成文章表达的特定主题;S7.根据划分结果找到不同主题簇之间的连接特征,找到不同主题簇之间的连接词;S8.找到主题簇里面的主题词,通过对主题簇进行提取,根据S2所得的主题簇里面的关联度求出主题簇内的连接权重,比较主题簇里面的各个词语的连接性得出该主题簇的主题词,主题簇内连接权重最大的词语即为该主题簇的主题词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第七研究所,未经中国电子科技集团公司第七研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910028660.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种专利组合生成方法及系统
- 下一篇:一种英语翻译结合计算机测评录入平台