[发明专利]一种文本的候选关键词的提取方法有效
申请号: | 201110337333.X | 申请日: | 2011-10-31 |
公开(公告)号: | CN102682049A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 韩建波 | 申请(专利权)人: | 天脉聚源(北京)传媒科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100007 北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本的候选关键词的提取方法,给每个自然词确定对应的词项,并存储到自然词数据库中,设置多个候选关键词模板,存入模板库,根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项,从模板库中按顺序抽取候选关键词模板,按照文本的自然词的顺序,将候选关键词模板与文本全部自然词逐个进行比对,如果连续的自然词都满足候选关键词模板中的约束项的词项要求,则将连续的自然词中对应当前文约束项序列的自然词组合作为候选关键词,直到所有的候选关键词模板完成比对。采用了本发明的技术方案,能够提高文本的标引质量,从而提高文本检索的查准率。 | ||
搜索关键词: | 一种 文本 候选 关键词 提取 方法 | ||
【主权项】:
一种文本的候选关键词的提取方法,其特征在于,包括以下步骤:A、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中;B、设置不少于1个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括不少于2个约束项,每个约束项包括一个自然词字段和一个预定的词项;C、根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项;D、从模板库中按顺序抽取1个候选关键词模板;E、按照所述文本的自然词的顺序,将所述候选关键词模板与所述文本全部自然词逐个进行比对,如果连续的自然词都满足所述候选关键词模板中的约束项的词项要求,则将所述连续的自然词中对应所述候选关键词模板中的模板项序列的当前文约束项序列的自然词组合作为所述文本的候选关键词;返回步骤D,直到所有的候选关键词模板完成比对。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天脉聚源(北京)传媒科技有限公司,未经天脉聚源(北京)传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110337333.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种酚醛树脂基纳米活性碳纤维材料的制备方法
- 下一篇:顶部推拉式保护伞