[发明专利]词语提取方法及装置有效

专利信息
申请号: 201210218450.9 申请日: 2012-06-28
公开(公告)号: CN103514213A 公开(公告)日: 2014-01-15
发明(设计)人: 贾江涛;顾翀 申请(专利权)人: 华为技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京三高永信知识产权代理有限责任公司 11138 代理人: 黄厚刚
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 词语 提取 方法 装置
【说明书】:

技术领域

发明涉及信息检索领域,特别涉及一种词语提取方法及装置。

背景技术

在中文信息处理和信息检索领域中,人们需要快速地了解一篇文档的内容时,通常是提取几个词语或者短语,作为该文档的主要内容的提要。根据不同的应用场景,提取到的词语或者短语可以称之为关键字、线索词或者标签。

现有技术中,通常采用的一种词语提取方法包括:第一,从文档中选取候选词语;具体地讲,候选词语一般是单个词或者由多个单词组成的短语。在英文文档中,每个词都是以空格作为自然分界符,选取候选词语较为简单;在中文文档中,可以通过语义分析来分割文档中的语句,从而获得各种词性模式的词语,词性包括形容词、名词、动词、介词和量词等,然后将某种词性模式的词语作为候选词语;第二,在候选词语中提取具有代表性的词语。具体地讲,可以对候选词语进行某种方式的统计,根据候选词语的统计性质对每个候选词语进行排序,选取排名最靠前的n个候选词语作为提取到的词语。当需要提取与特定领域相关的词语时,第二步骤中通常采用的排序方法为TF-IDF(Term Frequency-Inverse Document Frequency,词频-反向文档频率)。

在实现本发明的过程中,发明人发现现有技术至少存在以下问题:现有技术仅根据词语在特定领域的采样文档中出现的频率来对候选词语进行统计,最终提取到的词语并不能够准确地代表特定领域的特性。

发明内容

为了提取更具有领域代表性的词语,本发明实施例提供了一种词语提取方法及装置。所述技术方案如下:

一方面,本发明实施例提供了一种词语提取方法,所述方法包括:

获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;

处理所述目标文档获得候选词语;

根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;

根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。

另一方面,本发明实施例提供了一种词语提取装置,所述装置包括:

文档获取模块,用于获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;

文档处理模块,用于处理所述目标文档获得候选词语;

参数计算模块,用于根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;

词语提取模块,用于根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。

本发明实施例提供的技术方案带来的有益效果是:

通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,本发明实施例可以达到提取到的关键词在领域上更加相关、地域上更加相关和/或时间上更加相关的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的词语提取方法的方法流程图;

图2是本发明实施例二提供的词语提取方法的方法流程图;

图3是本发明实施例三提供的词语提取方法的方法流程图;

图4是本发明实施例四提供的词语提取方法的方法流程图;

图5是本发明实施例五提供的词语提取装置的一种结构方框图;

图6是本发明实施例五提供的词语提取装置的另一结构方框图;

图7是本发明实施例五提供的词语提取装置的再一结构方框图;

图8是本发明实施例五提供的词语提取装置的又一结构方框图;

图9是本发明实施例五提供的词语提取装置的还一结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本文的重点和难点之一为:在原有TF-IDF排序方法的基础上,结合诸如文档权重信息、时间权重信息之类的文档信息的计算,从而形成改进的TF-IDF排序方法,以便达到更好的词语排序和提取效果。

实施例一

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210218450.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top