[发明专利]一种基于主题模型的文本关键词提取方法有效

专利信息
申请号: 201410000751.3 申请日: 2014-01-02
公开(公告)号: CN103744835A 公开(公告)日: 2014-04-23
发明(设计)人: 陈雪;汤文清 申请(专利权)人: 上海大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 上海上大专利事务所(普通合伙) 31205 代理人: 陆聪明
地址: 200444*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 模型 文本 关键词 提取 方法
【权利要求书】:

1.一种基于主题模型的文本关键词提取方法,其特征在于,具体步骤如下:

(1)、利用主题模型的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵                                               ; 

(2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合中的关键词,取出上述训练文本集的词项与主题的概率矩阵中候选关键词对应的一行,生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵;

(3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵中行的元素顺序,设置一个与候选关键词集合A中的元素对应的候选关键词向量; 

(4)、按照步骤(3)所述的候选关键词向量中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向量对应的候选关键词词频权重向量,其表达式为:    

,  (a)

其中,为第i个候选关键词在文本中的词频,i为候选关键词顺序编号;

(5)、设置一个与词项与主题的概率矩阵中的列号对应的文本的主题向量,该主题向量中元素的初始值为步骤(2)词项与主题的概率矩阵中对应列号上元素值之和,其表达式为: 

其中, 为词项与主题的概率矩阵中的第i行第j列的元素, 为词项与主题的概率矩阵的行数,为词项概率矩阵的列数;

(6)、利用词项与主题的概率矩阵、候选关键词向量和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量;

(7)、将候选关键词对应的主题权重向量中的元素值乘上候选关键词词频权重向量中对应的元素值,得到修正后的候选关键词主题权重向量,其计算表达式为:

其中,为修正后的候选关键词主题权重向量中的第i个元素,为向量中的第i个元素,为向量中的第i个元素,

根据修正后的候选关键词主题权重向量中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合。

2.根据权利要求1所述的一种基于主题模型的文本关键词提取方法,其特征在于,上述步骤(6)所述的利用词项与主题的概率矩阵、候选关键词向量和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量,其具体步骤如下:

(6-1)、文本的主题向量进行归一化计算,得到归一化后的主题向量;

(6-2)、将词项与主题的概率矩阵和归一化后的主题向量相乘,其相乘之积的值赋给候选关键词的暂存向量,其计算公式如下:

  

(6-3)、对候选关键词的暂存向量进行归一化计算,得到归一化后的候选关键词向量;

(6-4)、将词项与主题的概率矩阵转置之后,再与候选关键词向量相乘,其相乘之积的值赋给的文本的主题权重向量,其计算公式如下:

(6-5)、设置循环阈值(比如千分之一),重复步骤(6-1)到步骤(6-4),一直到前后两次循环之间向量的每个元素对应的差值均小于设定的循环阈值,即停止,得到候选关键词对应的主题权重向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410000751.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top