[发明专利]一种对文本中关键词重要性的排序方法有效
申请号: | 201410000706.8 | 申请日: | 2014-01-02 |
公开(公告)号: | CN103744951B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 陈雪;汤文清 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的构公开了一种对文本中关键词重要性的排序方法,该方法首先对一篇文本进行分词操作,然后去除停用词,得到该文本的关键词集合;然后统计关键词的词频,得到关键词对应词频向量;将具有断句功能的标点符号设为共现窗口的分界端点,统计词项之间的共现信息,得到关键词的共现矩阵,并从关键词的共现矩阵,得到关键词的共现的分布情况的向量;对关键词的共现矩阵进行处理,得到由关键词共现关系判断出的关键词重要性向量;然后将由关键词共现判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行处整合,得到关键词在文本中综合的重要性;最后根据计算所得的关键词的重要性大小,对关键词进行排序。该方法使用多种信息判断文本中关键词的重要性,提高判断在文本中关键词重要性的准确度和可信度。 | ||
搜索关键词: | 一种 文本 关键词 重要性 排序 方法 | ||
【主权项】:
一种对文本中关键词重要性的排序方法,其特征在于,其具体步骤如下:(1)、对文本进行分词操作,并且去除文本中的停用词,保留文本中具有断句功能的标点符号,将文本中的关键词组合成关键词集合,记为A;(2)、统计关键词集合A中关键词的词频,将统计的关键词的词频生成关键词的词频向量,记为B;(3)、按关键词的词频向量B中的词项的顺序,统计文本中关键词之间的共现关系,得到关键词集合A中每个关键词与其他关键词共现的向量,将上述每个关键词与其他关键词共现的向量组成一个关键词的共现矩阵,记为C;(4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量,记为D,关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同,关键词权重的初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数,记为:, 其中,n为关键词的个数;(5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F;(6)、将关键词权重向量F中的所有元素与关键词的词频向量B中的所有对应元素进行相乘,得到由关键词权重向量F和关键词的词频向量B生成的关键词权重更新向量,记为G;(7)、利用TF‑IDF计算公式中的IDF,对由关键词的共现矩阵因素和关键词的词频因素生成关键词权重更新向量G上的各个元素分别乘以,则得到关键词权重最终向量,记为H,向量H中元素的表达式为:其中,hi为关键词权重最终向量H的第i个元素;gi为由关键词的共现矩阵因素和关键词的词频因素获得的关键词权重更新向量G的第i个元素;为关键词的个数,为关键词的共现矩阵C中第i行不为零的元素个数;(8)、根据关键词权重最终向量H中各元素的值,从大到小排序,每个元素的值的顺序是其值对应的关键词在该文本中的重要性的顺序。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410000706.8/,转载请声明来源钻瓜专利网。