[发明专利]一种领域特征词的提取方法及系统有效
申请号: | 201310211467.6 | 申请日: | 2013-05-31 |
公开(公告)号: | CN103258053B | 公开(公告)日: | 2018-01-26 |
发明(设计)人: | 车天文;雷大伟;石志伟;周步恋;杨振东;王喜民 | 申请(专利权)人: | 深圳市宜搜科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市凯达知识产权事务所44256 | 代理人: | 任转英,刘大弯 |
地址: | 518026 广东省深圳市福田区滨*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 特征 提取 方法 系统 | ||
技术领域
本发明涉及信息检索领域,尤其是一种领域特征词的提取方法及系统。
背景技术
搜索引擎的出现,让用户可以从海量数据中快速的查找信息。而对于分布于各种领域的用户,搜索引擎若要满足各类用户的需求,就要识别各类领域内容的需求。领域特征词是描述领域的最恰当的词语,可以将领域的主要内容明显的表示出来。领域词包括领域专业词和领域特征词:由一个领域中所有领域特征词组成的集合称为领域特征词集(Domain Feature Set,DFS),如在小说领域的,“小说、txt,章节”等属于特征词,这类词可以将所属领域与其它领域区别开来,而像“斗破苍穹”属于领域专业词,这类词可以显示用户更直接更具体的需求。
领域特征词对于网页分类、网页质量打分、信息检索等工作,有着重要的意义。在网页分类中,领域特征词本身就是一种很重要的特征,一篇网页的关键域(如title)中如果有领域特征词,那么该网页的类别则可以很容易的判定出来。在网页质量打分上,需要对网页中每个词汇进行赋权打分,对于领域特征词这类具有明显意义的词,则需要特殊对待,以保证网页中词汇的分数的合理性,让高分的词汇,能突显出网页内容的特性,且不重要的词汇,打分不至于过高。在信息检索中,合理地利用领域特征词,能够更好的理解用户的需求。用户的检索词中若含有领域特征词,则可以很容易的判定该检索词需要的究竟是什么内容,如检索词“斗破苍穹txt下载”,“斗破苍穹”可能会有许多类别,诸如小说、游戏、歌曲等,但用户的需求究竟是哪一类,不得而知。但可以依靠检索词中其它词汇来做进一步的判定,具体来说如果检索词中有小说领域特征词“txt”,便可获知用户需要的是小说“斗破苍穹”,而不是游戏“斗破苍穹”。
故领域特征词在实际中有很大的应用,而这些都需要建立在准确地识别、提取领域特征词的基础上。领域特征词的现有技术,主要有基于规则的方法,基于统计的方法,以及二者相结合的方法。
基于规则来提取领域特征词,就是利用语言学的规则来识别、提取,但语言学规则需要人工发现、整理,效率较低;且基于规则的方法类似于自然语言处理中的命名实体识别,主要用于识别实体,即对识别领域专业词更有效。
基于统计的方法,是利用大规模语料采用一定的模型,来统计迭代,但首先领域语料不易获取,而且干净的领域语料更不容易获取,某领域语料中可能含有其它领域的词汇,会造成影响模型训练的噪音。
采取基于规则和统计相结合的方法,能够集二者之长,但上述的问题,如语料问题等,依然存在。
发明内容
本发明解决的技术问题在于提供了一种领域特征词的提取方法及系统,以提供效率高、简单易行的领域特征词提取方法。
本发明提供了一种领域特征词的提取方法,包括,
获取领域实体资源;
获取领域实体的搜索结果;
利用所述搜索结果提取候选领域特征词;
根据所述候选领域特征词,筛选出领域特征词。
上述的方法中,其中,所述获取领域实体的搜索结果包括,
利用搜索引擎,将领域专业词的搜索结果进行处理,提取搜索结果相关信息,作为一种语料进行保存。
上述的方法中,其中,所述利用所述搜索结果提取候选领域特征词包括,
对每条语料分词后得到一系列词汇Term,除去领域专业词所包含的Term;
通过词性过滤,过滤掉大部分不可能是领域特征词的词;
对经过上述处理后的词汇根据排序和距离两个因素进行打分;
根据分数选取词汇作为候选领域特征词。
上述的方法中,其中,所述打分具体包括,根据打分公式进行打分,所述打分公式为,
其中,m为每个领域专业词获取的有效搜索结果条数,ni为该条中词汇的数目,dj为该条中词汇Tj与领域专业词的Term距离,β为可调控参数,可设置为常数e。
上述的方法中,其中,所述筛选出领域特征词包括,
采取外链得分即根据一个词汇的相关搜索结果判定其与领域的相关性,若相关搜索结果显示该词汇与领域相关性大,则该词汇作为领域特征词。
上述的方法中,其中,所述外链得分公式为:
其中,m为词汇T的相关搜索结果的数目,relative_num为相关搜索结果中与领域相关的数目。
进一步地,上述的方法,还包括输出领域特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市宜搜科技发展有限公司,未经深圳市宜搜科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310211467.6/2.html,转载请声明来源钻瓜专利网。