[发明专利]词语提取方法及装置有效
申请号: | 201210218450.9 | 申请日: | 2012-06-28 |
公开(公告)号: | CN103514213A | 公开(公告)日: | 2014-01-15 |
发明(设计)人: | 贾江涛;顾翀 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 黄厚刚 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 提取 方法 装置 | ||
技术领域
本发明涉及信息检索领域,特别涉及一种词语提取方法及装置。
背景技术
在中文信息处理和信息检索领域中,人们需要快速地了解一篇文档的内容时,通常是提取几个词语或者短语,作为该文档的主要内容的提要。根据不同的应用场景,提取到的词语或者短语可以称之为关键字、线索词或者标签。
现有技术中,通常采用的一种词语提取方法包括:第一,从文档中选取候选词语;具体地讲,候选词语一般是单个词或者由多个单词组成的短语。在英文文档中,每个词都是以空格作为自然分界符,选取候选词语较为简单;在中文文档中,可以通过语义分析来分割文档中的语句,从而获得各种词性模式的词语,词性包括形容词、名词、动词、介词和量词等,然后将某种词性模式的词语作为候选词语;第二,在候选词语中提取具有代表性的词语。具体地讲,可以对候选词语进行某种方式的统计,根据候选词语的统计性质对每个候选词语进行排序,选取排名最靠前的n个候选词语作为提取到的词语。当需要提取与特定领域相关的词语时,第二步骤中通常采用的排序方法为TF-IDF(Term Frequency-Inverse Document Frequency,词频-反向文档频率)。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:现有技术仅根据词语在特定领域的采样文档中出现的频率来对候选词语进行统计,最终提取到的词语并不能够准确地代表特定领域的特性。
发明内容
为了提取更具有领域代表性的词语,本发明实施例提供了一种词语提取方法及装置。所述技术方案如下:
一方面,本发明实施例提供了一种词语提取方法,所述方法包括:
获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;
处理所述目标文档获得候选词语;
根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;
根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。
另一方面,本发明实施例提供了一种词语提取装置,所述装置包括:
文档获取模块,用于获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;
文档处理模块,用于处理所述目标文档获得候选词语;
参数计算模块,用于根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;
词语提取模块,用于根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。
本发明实施例提供的技术方案带来的有益效果是:
通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,本发明实施例可以达到提取到的关键词在领域上更加相关、地域上更加相关和/或时间上更加相关的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的词语提取方法的方法流程图;
图2是本发明实施例二提供的词语提取方法的方法流程图;
图3是本发明实施例三提供的词语提取方法的方法流程图;
图4是本发明实施例四提供的词语提取方法的方法流程图;
图5是本发明实施例五提供的词语提取装置的一种结构方框图;
图6是本发明实施例五提供的词语提取装置的另一结构方框图;
图7是本发明实施例五提供的词语提取装置的再一结构方框图;
图8是本发明实施例五提供的词语提取装置的又一结构方框图;
图9是本发明实施例五提供的词语提取装置的还一结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本文的重点和难点之一为:在原有TF-IDF排序方法的基础上,结合诸如文档权重信息、时间权重信息之类的文档信息的计算,从而形成改进的TF-IDF排序方法,以便达到更好的词语排序和提取效果。
实施例一
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210218450.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:离心式两级自动变速装置
- 下一篇:一种信息处理方法及电子设备