[发明专利]一种领域词识别方法和装置有效
申请号: | 200910241287.6 | 申请日: | 2009-11-27 |
公开(公告)号: | CN102081601A | 公开(公告)日: | 2011-06-01 |
发明(设计)人: | 于亮;张宇峰 | 申请(专利权)人: | 北京金山软件有限公司;北京金山数字娱乐科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 识别 方法 装置 | ||
技术领域
本发明涉及信息识别领域,尤其涉及一种领域词识别方法和装置。
背景技术
领域词是指具有强文本表示功能的特征词语,即能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明表现出来。领域词语中又可根据词语的领域流通度分为领域通用词和领域专类词。
领域通用词是表示领域的基本词语,代表了该类领域的质心特征,比如体育类的“比赛、球队”;领域专类词专指性强,区别度高,能将领域的详细特征区分开来,如体育类中的“世界拳击理事会、拳王”则不仅可以将体育类和其他类的区分开来,还能将体育类内部的小类如拳击区分出来。
领域词对于其所属领域来说,具有较强的特征表示性。在中文信息处理中,领域词对于文本分类、信息检索、主题词标引等工作,有着重要的意义。目前,领域词在文本分类领域,已经有比较好的应用。对于文本分类的性能来讲,文本特征的选择和文本表示成为最重要的切入点。实验表明,基于能够对文本具有强表示功能的领域词和关键短语的文本特征选择方法,对于文本分类的效果有很大的提高。领域词对于信息检索,特别是垂直搜索,在返回结果的准确率方面也会有很大的提高。
对领域词的应用建立在准确地将领域词被识别出来的基础上。领域词的识别(或术语抽取)目前主要有基于规则的方法、基于统计的方法、规则和统计相结合的方法。
发明人通过对现有技术研究发现,基于规则的方法其实是利用了语言学的规则来进行术语的识别和抽取,由于语言学规则难以发现,尤其在互联网高度发展的今天,表达方式日趋多样化,语言学规则就更难寻觅,目前主要是利用人工来发现语言学的规则,进而用到计算机自动识别中,这种方法使得领域词的识别速度低下,得严重滞后于信息的发展,而且其准确度也受到限制人为认知程度的限制;基于统计的方法对领域词的识别性能取决于算法模型的性能和文本语料提供的信息量。模型和算法的优化虽然能够一定程度上提高识别的性能,但是因为文本语料经常含有多个领域的领域词汇,这种交叉性会给领域词的识别带来很大的困难。
发明内容
有鉴于此,本发明实施例提供一种领域词识别方法和装置,对领域词进行快速准确的识别。
为实现上述目的,本发明实施例提供了如下技术方案:
一种领域词识别方法,包括:
在搜索引擎中搜索待识别领域词,获取搜索结果中的子结果并记录各个子结果出现位置;
结合预先确定的领域关键词信息确定所述搜索结果的子结果中出现的领域关键词,所述领域关键词信息包括领域关键词以及该领域关键词在其所属领域的权值;
根据所述领域关键词的参数计算所述待识别领域词属于所述领域关键词对应领域的得分,所述领域关键词的参数包括所述领域关键词在各个子结果中出现的位置和出现次数;
比较在所述得分与预先确定的领域符合度阈值,根据比较结果确定所述待识别领域词属于所述领域关键词对应的领域。
可选地,所述领域关键词的参数还包括:所述领域关键词的长度。
可选地,所述领域关键词的参数还包括:所述领域关键词的权值。
根据每个领域关键词的参数计算所述待识别领域词属于所述领域关键词对应领域的得分包括:
根据如下公式计算所述待识别领域词属于所述领域关键词对应领域的得分:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山软件有限公司;北京金山数字娱乐科技有限公司,未经北京金山软件有限公司;北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910241287.6/2.html,转载请声明来源钻瓜专利网。