[发明专利]一种基于语义词典的词语消歧方法有效
申请号: | 201110200321.2 | 申请日: | 2011-07-18 |
公开(公告)号: | CN102306144A | 公开(公告)日: | 2012-01-04 |
发明(设计)人: | 张卫丰;张静;王慕妮;周国强;张迎周;许碧欢;陆柳敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 词典 词语 方法 | ||
技术领域
本发明提出了基于语义词典的词语消歧方法,所提出的方法利用对词语概念相关度的计算,实现自动文本摘要的预处理工作——词语消歧,属于语义技术领域。
背景技术
语义词典的开发基于三个主要假设:一是可分离性假设,也就是语言的词汇成分是可以通过一定的方法离析提炼出来并专门针对它们进行研究,二是可模式化假设,一个人不可能掌握他所运用语言所需的所有词汇,除非他能够利用词义之间已经存在的系统的模式和关系,三是广泛性假设,也就是计算语言学如果真如人那样处理自然语言就必须要像人那样尽可能多的存储词汇知识。语义词典利用上述的三个假设,也就是英语语言特点将英语词典提升到了语义高度[1]。语义词典是以同义词集合作为基本构建单位,根据同义词集合所表达的概念之间的语义关系组织起来语义关系图,它允许使用者从不同的途径去访问词典信息。语义词典跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。
词义是指一个词所具有的意义,词义消歧是一个重要的语义技术,它是自然语言问答系统、指代消解、机器翻译等的必要组成部分。基于它的目标就是在某个特定的上下文中,确定每个多义词在该上下文中特定义项的过程[2],词义消歧可以说是一种纯粹的语义技术。但作为一种规则,这种技术需要语言处理器作为基础,因为如果不将一个文本分割成一系列词、句子和固定表达,不知道它是否是名词或者动词,要在上下文环境里确定一个词的含义会非常困难。词义消歧一直是自然语言处理领域的难题之一。它的研究从上世纪50年代初期开始机器翻译研究以后,就一直受到人们的关注。词义消歧任务本身是一个中间任务,是大多数自然语言处理任务的一个重要的中间层次,在自然语言处理中有广泛的用途。
当前词语消歧主要通过基于语义词典概念组织方式的词语相关度和基于语义词典概念释义的词语相关度来实现,基于语义词典概念组织方式的词语相关度对概念相关性的度量不够充分,相关度指标更多地反映概念之间的相似性,而词语消歧要考虑上下文词语间的相关性[3],基于语义词典概念释义的词语相关度从概念本身、概念的同义词、概念释义[4]、概念的扩展释义[5]和扩展同义词集合角度出发,利用概念之 间的相关关系,选取词语的最佳词义和最佳词义组合,实现基于上下文的词语消歧。
1.A.Budanitsky,G.Hirst.Evaluating WordNet-based Measures of Lexical Semantic Relatedness,32(1):13~47,Computational Linguistics,2006.
2.黄昌宁,夏莹语言信息处理专论.北京:清华大学出版社,1996.78一101
3.张燕飞编著.信息组织的主题语言.武汉大学出版社.2005.11
4.S.Banerjee,T.Pedersen.An adapted Lesk algorithm for word sense disambiguation using Word-Net,2002.
5.S.Banerjee,T.Pedersen.Extended gloss overlaps as a measure of semantic relatedness,2003.
发明内容
技术问题:本发明的目的是提供一种基于语义词典的词语消歧的实现方法,以往词语消歧主要通过基于语义词典概念组织方式的词语相关度来实现消歧,对概念之间的相关性度量不够。本发明的目的是从概念的相关性出发,综合考虑概念本身,概念释义,概念的同义词,概念的扩展概念,扩展概念同义词之间的关系,从词语的相关度和句子的连贯度出发,利用回溯法选取词语的最佳词义,实现基于上下文的词语消歧。
技术方案:本发明结合单词的概念释义、概念的同义词集合、扩展释义和扩展同义词集合,从概念之间的相关性和句子的连贯度出发,选取最佳词义组合,从而达到基于上下文的词语消歧的目的。
本发明的基于语义词典的词语消歧方法主要分为以下步骤:
一、获取文本集中句子列表L:
步骤11)由计算机读入已程序化的文本集合D;
步骤12)利用分词组件对文本集合D中的每个文本分词,得到标注后的文本集合,记为D1,
步骤13)读入文本集D1,
步骤14)对其中一个文本文件进行处理,读取的句子逐行放入句子列表L中;
二、分割文本集中的词和词性标注,用语义词典数据库查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110200321.2/2.html,转载请声明来源钻瓜专利网。