[发明专利]文本关键词的提取方法无效
申请号: | 200710041150.7 | 申请日: | 2007-05-24 |
公开(公告)号: | CN101067808A | 公开(公告)日: | 2007-11-07 |
发明(设计)人: | 方宁;骆祥峰;徐炜民 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海上大专利事务所 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 关键词 提取 方法 | ||
技术领域:
本发明涉及一种计算机自动提取文本关键词的方法,更具体地说,涉及对TF-IDF公式提取文本关键词的若干改进方法。
背景技术:
文本知识获取与表示的基本单元之一是文本的关键词。文本关键词自动获取的精度直接影响到文本知识获取的性能与文本本体建立的质量。
属于一个领域的多个文本所共现的类关键词呈现该领域文本的最低层知识,是该领域文本知识表示与获取的基本单元之一。文本领域关键词的自动获取的精度直接影响到文本领域知识获取的性能与领域知识本体建立的效果,从而影响网络资源服务的质量与效果。
单篇文本关键词与多篇文本领域关键词在文本自动分类、聚类、资源智能服务等方面有着广泛的应用,它不仅是进行这些工作不可缺少的基础和前提,也是语义网格与知识网格中语义表示、知识获取与本体建设的最基本元素之一。
目前尚未见对领域关键词的研究论文,而目前主要运用于单个文本关键词提取研究的主要方法有:TF-IDF方法、互信息方法、朴素贝叶斯分类法,最大熵模型法、最大似然性和前缀树等方法等。TF-IDF方法提取关键词的精度还不够高。
发明内容:
本发明的目的在于针对已有技术存在的不足,提供一种改进的文本关键词提取方法,能提高从单篇文本中提取关键词的精度,并能提取同类文本集合中共同领域关键词。
为了达到上述的目的,本发明的构思如下:
本发明就是从分析TF-IDF公式提取关键词的基础上,提出通过篇频修正法提高单篇文本关键词获取精度,通过词频修正法和对比选择法提取同类文本集中共同的领域关键词。
TF-IDF公式的本质就是通过比较,在提取文本中如果一个词的词频越高,而在无关文本中的出现次数越低的话,那么它越有可能成为提取文本中的关键词。但是在 TF-IDF公式中,无论一个关键词在一篇无关文本中出现几次,只要出现了,篇频就要加1,例如“grid”一词在被提取的文本中出现30次,但在10篇无关文本中,每篇只出现了一次,但是此时系统得到的篇频是10,而另一个词“service”也在被提取的文本中出现了30次,但在10篇无关文本中,每篇却出现了20次,此时的篇频也是10。我们可以直观地看到“grid”应该比“service”更像关键词,但是在系统计算的时候两者的值是一样的。为了解决以上问题,本发明提出在导入无关文本时,先对每篇无关文本求词频,把词频为1的词删去,即统计篇频时,只考虑关键词出现次数大于等于2的文本数。
领域关键词是多篇同类单篇文本关键词的交集,传统的TF-IDF关键词提取公式虽然可以取得不错的效果,但是在求文本领域关键词时,可能把属于单篇文章的关键词错认为是领域关键词,例如“SARS”一词是某篇描述网格运用于“SARS”研究方面的文章的关键词,因此在这篇文本中“SARS”一词有很高的词频,而且在无关文本中“SARS”出现的频率很低,在进行文本领域(类)关键词提取时,利用TF-IDF公式计算相对词频时,“SARS”一词就会拥有比较高的权重,系统就会认为它是领域关键词。但是事实上“SARS”的确属于该篇文本的关键词,但是它不可能属于网格这类文本的关键词。所以本发明在进行TF-IDF公式提取领域关键词前,先对词频进行修正。
传统的TF-IDF公式提取领域关键词时,是先把每类中的所有文章合并成一篇文章,在统一计算各词的词频,这样的话就引起了上面的错误,因为只要在一篇文本中一个词的绝对词频偏高的话,那么在这个领域中这个词的绝对词频也就偏高,可能导致最后求得的相对词频也偏高。所谓的词频修正法就是在求文本领域关键词的词频时,先在每篇文本求词频,然后再求出每个词在所有文章中的平均词频,最后把该词在每篇文本中的词频逐一与平均词频进行比较,把大于或小于平均词频一定比例的词频出去,再求该词词频的总和,获得一个最终的词频进行TF-IDF公式的计算。
本发明提出用对比选择法提取领域关键词,所谓的对比选择法就是从文本领域关键词的定义出发,先对每篇文本求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词。共同拥有率指的是在领域关键词提取时,某一单词为单篇文本关键词的次数与所有属于该领域的文本数之比。
根据上述的发明构思,本发明采用下述技术方案:
一种文本关键词提取方法,其特征在于在TF-IDF方法提取文本关键词的基础上,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710041150.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有激光雕刻图案的服饰面料及其制造方法
- 下一篇:一种水族箱