[发明专利]一种利用计算机对词义进行排歧的方法、系统及检索方法有效
申请号: | 200810117907.0 | 申请日: | 2008-08-05 |
公开(公告)号: | CN101334768A | 公开(公告)日: | 2008-12-31 |
发明(设计)人: | 刘飞;潘小双;吴明辉;迟松涛 | 申请(专利权)人: | 北京学之途网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 | 代理人: | 龙洪;朱振德 |
地址: | 100085北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 计算机 词义 进行 方法 系统 检索 | ||
技术领域
本发明涉及计算机技术领域,具体地说,涉及一种用计算机对语言文字进行处理时,对词语的词义进行排歧的方法及词义排歧系统,本发明还涉及一种检索方法。
背景技术
在计算机检索、语音识别、机器翻译等技术领域,需要由计算机对文字或语言进行处理,从而达到以机器来模拟人的部分乃至全部的语言能力的目的。经过长时间的发展,人类的语言已经形成了自身固有的客观语言规律。但是,由于自然语言中的词汇存在大量的歧义,即同一词语可能具有多种涵义,因此,计算机在对语言进行处理的过程中,需要根据某一词汇上下文中的词例从该词汇的诸多项词义中选择出正确的词义,该过程称为词义排歧或词义消歧。词义排歧作为自然语言处理领域十分重要的内容,主要用作两种语言的机器翻译系统中,也有一些应用在信息检索系统中。
由于汉语中单个词语通常具有很多的涵义,词义排歧通常有比较大的难度。如果不能够很好的选择词语的词义,那么,需要准确理解文本内容和准确理解单独词的词义的目标将难以实现。目前,对于歧义问题通常有两种基本的处理方法:第一种方法是在词义分析过程中消除非良构词义表示,即一个语句结构可以有两种或两种以上的理解方法,通过分析语句的句法结构,把一个语句变成一颗确定的语法树,使其不会有两种或两种以上的理解方法,而在这个过程中,能够消除一些词语的歧义,从而产生的正确的词语涵义;第二种方法是在词义分析之前独立进行词义排歧。对于独立的方法,目前有一些数学模型可以实现词义排歧。
由于不同的计算机系统处理文本中关注的重点是不一样的,如机器翻译领域需要把每个词的词义的选择与文章的整体语境协调起来;但某些系统只 关心某些特定词汇的词义排歧,而不关心其他词的词义判断是否准确,例如在信息检索领域只关心检索关键词的词义选择是否正确。这样,导致了现有的词义排歧方法在适应不同的应用时需要有不同的方法。
中文切词(或中文分词)是中文信息处理的基础,即将连续的中文字序列按一定的规范重新组合成词的序列,例如,将“我的笔记本”切分成“我”“的”“笔记本”三个词汇单元。对中文切词的算法主要有两种方法。
第一种是使用词典进行切词。使用词典的方法必须有一个中文的词库,这个词库中包含中文中出现的几乎所有的词。有了词库的情况下就可以使用最大正向匹配,或者最大逆向匹配进行中文切词了。最大正向匹配的算法为:
(1)将整篇文章按照标点符号切分成句子;
(2)依次处理每一个句子S,设句子中字的个数为n;
(3)设置一个词的最大长度K,令K=min(m,n);(m为词库中词的最大长度,min(m,n)为m和n的最小值。)
(4)取句子S中的前K个字作为一个待选词,到词典里查找是否含有这个词,如果词典里含有这个词,那么就找到了一个词,并把S中这前K个字去掉,这时S的长度为n-K,如果S的长度变成0,那么转到(2),处理下一个句子,如果S的长度大于0,则重复步骤(3);如果词典中不含有这个词,把K减1,并重复步骤(4);直至处理完所有句子。
另一种中文切词方法是使用概率的方法。举个例子,对“有意见分歧”进行切词,那么,按照最大正向匹配的方法,这个句子应该被切成“有意”,“见”,“分歧”。但实际上正确的切法应该是“有”,“意见”,“分歧”。用概率的方法就是统计词在语言中出现的概率,当一个句子有多种切法的时候,计算每一种切法每个词出现的概率的乘积,取值最大的一种作为切词结果。
命名实体(Named Entity)是指文本中具有特定意义的专有名称和数量短语。命名实体是文本中比较重要的元素,命名实体对于自动理解文本内容和理解文本词义都有非常重要的作用。
很多命名实体名称中的一些词存在歧义。例如,“联想集团”是一个公 司实体,组成这个公司实体的一个词“联想”就存在着歧义。这很有可能导致命名实体识别的不准确,或者整个文章的计算机理解不准确的问题。当系统中关注的词中存在着大量歧义的情况下,不解决辨别词的歧义问题是无法满足系统的目的和要求的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京学之途网络科技有限公司,未经北京学之途网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810117907.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:杠杆拱型文件夹机构和包括该机构的杠杆拱型文件夹
- 下一篇:色度补偿方法和装置