[发明专利]基于主题模型的文档关键词抽取方法及其系统有效
申请号: | 201610162410.5 | 申请日: | 2016-03-21 |
公开(公告)号: | CN105843795B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 蔡毅;杨楷;闵华清 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于主题模型的文档关键词抽取方法及其系统,其中文档关键词抽取方法包括下列步骤:文档信息预处理、文档结构图构建、文档主题分布提取、单词权重提取、关键词生成;其中文档关键词抽取系统包括下列模块:文档信息预处理模块、文档结构图构建模块、文档主题分布提取模块、单词权重提取模块、关键词生成模块。本发明可以使得提取出来的关键词更加合理、与文档的主题更加密切;具有解决了目前关键词提取领域的部分不足之处,使文档总结达到更好的效果,方便用户迅速了解文档的概要。 | ||
搜索关键词: | 基于 主题 模型 文档 关键词 抽取 方法 及其 系统 | ||
【主权项】:
1.一种基于主题模型的文档关键词抽取方法,其特征在于,所述文档关键词抽取方法具体包括下列步骤:S1、文档信息预处理,将输入的文档进行单词词性划分,功能词及其停用词剔除,词干提取,建立起半结构化数据;S2、文档结构图构建,构建文档结构图,其中,所述文档结构图描述了文档中各个单词在该文档中的位置信息,该文档结构图的每个节点代表一个单词,链接两个节点的边表示这两个节点代表的单词在文档中距离较近;S3、文档主题分布提取,通过基于背景词的主题模型技术抽取文档中的主题分布以及文档中每个词的主题分布,所述步骤S3、文档主题分布提取具体如下:S3a、文档背景词标注,通过计算每个词的TF‑IDF值,并选定某个阀值,将低于这个阀值的单词认定为信息量较小的词,然后人工浏览选择出背景词;所述TF‑IDF值的计算公式如下:TF‑IDFi=TFi*IDFi,上式中i是第i个关键词,ni是单词ti在文档中出现的次数,TFi是关键词ti在所有文档中的词频,∑knk是所有单词在文档中出现总次数,IDFi是关键词ti的反向概率,D是系统所有文档的个数,Dw是出现单词ti的文档个数;S3b、利用bLDA基于背景的隐含狄利克雷分布获取文档的隐含主题的分布,将第一个topic设置为背景主题,将与主题无关的词都聚到该topic中,采用吉布斯采样求解bLDA,得到文档中每个词对应每一个topic的概率如下Wz(wi)=p(z|w)给定单词w的条件下,该词被分配为主题z的概率;S4、单词权重提取,提取文档中每个单词的权重,其中,每个单词的权重代表该单词在文档中的重要程度;S5、关键词生成,将求关键词问题转化为图算法中提取关键节点的问题,根据文档结构图采用PageRank算法,并结合主题模型与词权重,对每个词计算一个得分,得分最大作为该文档的关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610162410.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种在陡峭山路上使用的卫生桶
- 下一篇:一种可放置植物的垃圾袋