[发明专利]一种词汇质量挖掘评价方法及装置有效
申请号: | 200910237185.7 | 申请日: | 2009-11-10 |
公开(公告)号: | CN102054006A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | 刘怀军;姜中博;方高林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) 11270 | 代理人: | 蒋雅洁;王黎延 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词汇 质量 挖掘 评价 方法 装置 | ||
技术领域
本发明涉及互联网信息处理技术,特别是指一种词汇质量挖掘评价方法及装置。
背景技术
随着互联网(Internet)的迅猛发展,“信息过载”的问题日益突出。人们在享受互联网带来的方便快捷的同时,也被其包含的海量信息所淹没。如何能够更有效、更准确地从互联网的海量数据中提取有效信息,成为基于互联网的网络信息查询的当务之急。
目前涌现了各种各样的互联网平台,向用户不断地提供着海量的信息。常见的互联网平台如搜索引擎,例如Google、百度、搜搜等;又如互动问答平台,例如知道、问问,知识堂等;再如广为流行的博客平台,例如Qzone、新浪博客。
这些互联网平台均需要通过自然语言处理技术,从海量数据中抽取有效的核心信息来进行处理。自然语言处理,就是要对一篇文章的语义进行挖掘,如文本的分类、聚类,摘要提取,相关性计算,等等。由于文章都是由词汇构成的,这样,自然语言处理中的每一项具体技术都离不开最底层的词汇理解。因此,准确挖掘和评价句子中每个词汇的重要度,便成为一个重要的研究问题。
例如,对于句子“中国有着悠久的历史,长城、兵马俑都是中国的骄傲。”,其中的词汇“中国”、“长城”、“兵马俑”、“历史”,显然相对于其他词汇重要。
词汇质量挖掘评价,就是要对一批候选词划分一个合理的质量等级。例如,划分重要、普通、常用词三个等级,然后将重要的词挑选出来,并将普通的词和常用词挑选出来;这样,在对文章进行语义分析时,就可以优先考察重要的词,然后把普通词作为补充,而常用词则完全可以过滤。
目前基于海量数据的词汇质量评价方法,一般是通过统计词汇的文档频率(DF,Document Frequency)、计算逆文档频率(IDF,Inverse DocumentFrequency)来衡量,即默认为不经常出现的词、即低频词都是不重要的词。但是,基于海量数据计算的DF或IDF,很难准确区分词汇的重要性。例如,基于一批语料的结算结果为:词汇“点亮”的IDF是2.89,而词汇“哈哈”的IDF是4.76。另外,对于非规范化数据,如问答平台、博客的数据,低频词可能是错误的词。例如,基于同样的语料,用户输入的错误英文串“asfsdfsfda”、“高启也”(由例句“高启也曾对新王朝抱有期待”分词得到)这样分词错误的词汇。
另外,在文本分类中,通常通过信息增益(IG,Information Gain)、卡方χ2等特征值方法来度量词汇对类别的贡献度。但只是通过选择特征值排序在前的n个词作为有效特征,n为整数,可以根据词汇质量挖掘评价的需要进行选择,然后通过TF-IDF来计算分类权重,其中TF(Term Frequency)为词汇频率。基于IG、卡方选择特征词的方法,只是用来选择特征词汇,在规范化较强、规模不是很大的数据上可以取得较好的效果;在海量的口语化数据上,单一的度量则无法整体反映词汇的重要程度,不能用来有效地计算词汇的重要度。例如,基于相同的语料,词汇“的”的卡方是96292.63382,而词汇“荆州”的卡方却只有4445.62836,但是显然是卡方较低的“荆州”一词比较重要。
发明内容
有鉴于此,本发明的主要目的在于提供一种词汇质量挖掘评价方法及装置,准确确定词汇的重要度。
为达到上述目的,本发明的技术方案是这样实现的:
一种词汇质量挖掘评价方法,该方法包括:对海量的分类数据进行词汇的文档频率(DF)分布统计;根据词汇的DF分布统计对词汇进行多个单一角度度量;根据词汇的各单一角度度量进行词汇的多角度度量,得到词汇的重要度权重。
较佳地,所述对海量的分类数据进行词汇的DF分布统计,包括:统计词汇在各个类别的分类数据中的DF分量;将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF。
较佳地,所述单一角度度量包括:逆文档频率(IDF)、平均逆文档频率(AVAIDF)、卡方、信息增益(IG)、互信息(MI)、期望交叉熵(ECE)、信息熵(ENT)和选择倾向性。
进行所述IG度量时,具体包括:将所有候选词汇基于DF进行区间划分;基于划分得到的各个区间对应的分类数据计算词汇的IG。
较佳地,所述根据词汇的各单一角度度量进行词汇的多角度度量得到词汇的重要度权重,包括:按照词汇的DF对各个候选词汇进行级别划分;根据词汇所在级别区间确定词汇的多角度度量,得到词汇在对应级别区间的重要度权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910237185.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:节煤炉
- 下一篇:一种模拟火源的流量控制方法和装置