[发明专利]一种基于主题模型的文本关键词提取方法有效

专利信息
申请号: 201410000751.3 申请日: 2014-01-02
公开(公告)号: CN103744835A 公开(公告)日: 2014-04-23
发明(设计)人: 陈雪;汤文清 申请(专利权)人: 上海大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 上海上大专利事务所(普通合伙) 31205 代理人: 陆聪明
地址: 200444*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于主题模型的文本关键词提取方法,该方法首先利用主题模型的方法从大量文本训练集中由主题模型训练得到的词项与主题之间的训练文本集的词项与主题的概率矩阵WT,进而得到候选关键词集合A中词项与主题的概率向量的集合所组成的候选的关键词的词项与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过候选关键词词项的权重向量和文本的主题向量,利用候选关键词语主题的概率矩阵B进行循环计算操作,得到最终修正后的文本主题向量和词项权重比例向量,进而提取出文本的关键词。该方法降低文本由于不同长度所提取关键词的误差,提取更能适合表达文本内容的关键词。
搜索关键词: 一种 基于 主题 模型 文本 关键词 提取 方法
【主权项】:
1.一种基于主题模型的文本关键词提取方法,其特征在于,具体步骤如下:(1)、利用主题模型的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵;(2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合中的关键词,取出上述训练文本集的词项与主题的概率矩阵中候选关键词对应的一行,生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵;(3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵中行的元素顺序,设置一个与候选关键词集合A中的元素对应的候选关键词向量;(4)、按照步骤(3)所述的候选关键词向量中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向量对应的候选关键词词频权重向量,其表达式为:,  (a)其中,为第i个候选关键词在文本中的词频,i为候选关键词顺序编号;(5)、设置一个与词项与主题的概率矩阵中的列号对应的文本的主题向量,该主题向量中元素的初始值为步骤(2)词项与主题的概率矩阵中对应列号上元素值之和,其表达式为:,其中,为词项与主题的概率矩阵中的第i行第j列的元素,为词项与主题的概率矩阵的行数,为词项概率矩阵的列数;(6)、利用词项与主题的概率矩阵、候选关键词向量和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量;(7)、将候选关键词对应的主题权重向量中的元素值乘上候选关键词词频权重向量中对应的元素值,得到修正后的候选关键词主题权重向量,其计算表达式为:其中,为修正后的候选关键词主题权重向量中的第i个元素,为向量中的第i个元素,为向量中的第i个元素,根据修正后的候选关键词主题权重向量中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410000751.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top