[发明专利]一种抽取关键词的方法有效
申请号: | 201010218156.9 | 申请日: | 2010-06-24 |
公开(公告)号: | CN101872363A | 公开(公告)日: | 2010-10-27 |
发明(设计)人: | 李蕾;王骏;刘冬雪 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 100876 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种抽取关键词的方法,应用于关键词长度较长、且内容较新的文本,该方法包括:首先,将通过现有方法抽取出的所有关键词作为候选关键词集;其次;通过考查各个候选关键词在文本中的关联度,将在文本中出现的所有相邻候选关键词的叠加组合作为候选未登录词集;最后,将部分候选关键词和部分候选未登录词作为最终抽取出的关键词集。由于本发明方法不仅考虑了词语在文本中的权值,而且还考虑了词语在文本中的关联度,因此,对于关键词长度较长、且内容较新的文本来说,采用本发明抽取关键词的方法能够准确地抽取出其中长度较长的关键词,提高了抽取关键词的准确度。 | ||
搜索关键词: | 一种 抽取 关键词 方法 | ||
【主权项】:
一种抽取关键词的方法,该方法包括:对文本进行预处理,得到候选词语集;根据候选词语集中每个候选词语总权值的大小,得到候选关键词集;其特征在于,在得到所述候选关键词集后,该方法还包括:将文本中的第一个词语作为当前词语,A.当当前词语不是文本中的最后一个词语时,判断当前词语是否为候选关键词集中的词语,如果是,执行步骤B;否则,将当前词语的下一个词语作为当前词语,返回执行步骤A,直至当前词语为文本中的最后一个词语时,执行步骤D;B.将当前词语作为当前候选未登录词,并将当前词语的下一个词语作为当前词语,判断当前词语是否为候选关键词集中的词语,如果是,执行步骤C;否则,将当前词语的下一个词语作为当前词语,返回执行步骤A,直至当前词语为文本中的最后一个词语时,执行步骤D;C.将所述当前候选未登录词与当前词语的组合作为当前候选未登录词,并将当前词语的下一个词语作为当前词语,判断当前词语是否为候选关键词集中的词语,如果是,返回执行步骤C;否则,将当前候选未登录词作为候选未登录词,并将当前词语的下一个词语作为当前词语,返回执行步骤A,直至当前词语为文本中的最后一个词语时,执行步骤D;D.将候选未登录词按照频数由高到低的顺序进行排序,得到候选未登录词集;将候选关键词集中前n1个总权值最大的候选关键词和候选未登录词集中前n2个频数最高的候选未登录词的集合作为关键词集,所述n1和n2为自然数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010218156.9/,转载请声明来源钻瓜专利网。