[发明专利]一种基于主题模型的文本关键词提取方法有效
申请号: | 201410000751.3 | 申请日: | 2014-01-02 |
公开(公告)号: | CN103744835A | 公开(公告)日: | 2014-04-23 |
发明(设计)人: | 陈雪;汤文清 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 文本 关键词 提取 方法 | ||
1.一种基于主题模型的文本关键词提取方法,其特征在于,具体步骤如下:
(1)、利用主题模型的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵 ;
(2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合中的关键词,取出上述训练文本集的词项与主题的概率矩阵中候选关键词对应的一行,生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵;
(3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵中行的元素顺序,设置一个与候选关键词集合A中的元素对应的候选关键词向量;
(4)、按照步骤(3)所述的候选关键词向量中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向量对应的候选关键词词频权重向量,其表达式为:
, (a)
其中,为第i个候选关键词在文本中的词频,i为候选关键词顺序编号;
(5)、设置一个与词项与主题的概率矩阵中的列号对应的文本的主题向量,该主题向量中元素的初始值为步骤(2)词项与主题的概率矩阵中对应列号上元素值之和,其表达式为:
,
,
其中, 为词项与主题的概率矩阵中的第i行第j列的元素, 为词项与主题的概率矩阵的行数,为词项概率矩阵的列数;
(6)、利用词项与主题的概率矩阵、候选关键词向量和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量;
(7)、将候选关键词对应的主题权重向量中的元素值乘上候选关键词词频权重向量中对应的元素值,得到修正后的候选关键词主题权重向量,其计算表达式为:
其中,为修正后的候选关键词主题权重向量中的第i个元素,为向量中的第i个元素,为向量中的第i个元素,
根据修正后的候选关键词主题权重向量中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合。
2.根据权利要求1所述的一种基于主题模型的文本关键词提取方法,其特征在于,上述步骤(6)所述的利用词项与主题的概率矩阵、候选关键词向量和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量,其具体步骤如下:
(6-1)、文本的主题向量进行归一化计算,得到归一化后的主题向量;
(6-2)、将词项与主题的概率矩阵和归一化后的主题向量相乘,其相乘之积的值赋给候选关键词的暂存向量,其计算公式如下:
(6-3)、对候选关键词的暂存向量进行归一化计算,得到归一化后的候选关键词向量;
(6-4)、将词项与主题的概率矩阵转置之后,再与候选关键词向量相乘,其相乘之积的值赋给的文本的主题权重向量,其计算公式如下:
;
(6-5)、设置循环阈值(比如千分之一),重复步骤(6-1)到步骤(6-4),一直到前后两次循环之间向量的每个元素对应的差值均小于设定的循环阈值,即停止,得到候选关键词对应的主题权重向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410000751.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:瓜蒌籽油口服液
- 下一篇:一种双馈风力发电机转子绕组故障的检测方法