[发明专利]一种词汇分类的方法、系统和实现方法有效
申请号: | 201110456676.8 | 申请日: | 2011-12-30 |
公开(公告)号: | CN103186612A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 徐萌;何洪凌;邓超;罗治国;孙少陵;陶涛 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京中誉威圣知识产权代理有限公司 11279 | 代理人: | 郭振兴;彭晓玲 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词汇 分类 方法 系统 实现 | ||
技术领域
本发明涉及文档分析技术领域,尤其涉及一种词汇分类的方法、系统和实现方法。
背景技术
在文档分析技术领域中,分类词库是一个比较重要的技术,可以用于多种用途和领域。例如,用户行为分析里面,利用用户对关键词的输入,可以判断用户的基本类别。收集用户输入的搜索关键词,可以通过分类词库获取关键词的类别,进而对用户类别标示。
表1
如表1,词汇分类可以用于词典编辑、语义分析等等领域。分类词库描述了词汇与类别的关系,其中,置信概率为可选项,词汇可以同时属于多个类别。
在词汇分类中,TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
在一份给定的文件里,词频(Term Frequency,TF)指的是某一个给定的词汇在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长的文件。(同一个词汇在长文件里可能会比短文件有更高的词频,而不管该词汇重要与否。)
逆向文件频率(Inverse Document Frequency,IDF)是一个词汇普遍重要性的度量。某一特定词汇的IDF,可以由总文件数目除以包含该词汇之文件的数目,再将得到的商取对数得到。
某一特定文件内的高词汇频率,以及该词汇在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词汇,保留重要的词汇。
现有技术的TF-IDF表示了一个词汇对一个文档的重要程度,但是对于目前现状来讲,还有以下问题:
1、TF-IDF仅表示了词汇统计结果,及词汇个数对某个文档的重要程度,而现状训练集多来自于网页,即网页内容与分类的对应。网页中信息不仅仅为文本,还有更丰富的信息,如文本出现的位置,文本字体大小,pagerank值(某个网页被引用的次数可以表示网页重要程度)等,这些信息TF-IDF没有用到。
2、TF-IDF现有的对应文档关系,某个文档与类别对应是一一对应关系,而现有训练集中,往往一个网页对应不同分类,即同时存在于多个分类。例如,新浪的分类中,一级分类为体育,二级分类随着时事变更,足球和世界杯这两个分类会同时存在,那里面会有部分网页是重复的,这种情况,现有技术没有解决方法。
3、现有的网页对分类的贡献程度没有明确表示,而网页对分类的重要程度是可以获得且具有很大的应用价值。
发明内容
本发明的目的是针对现有技术中TF-IDF存在的问题而提出的一种词汇分类的方法、系统和实现方法,能够自动完成词汇分类,而且投入很少,效果更加准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110456676.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:人体接近监控告警装置
- 下一篇:环境友好型室内空气净化、消毒、加湿、除湿器