[发明专利]一种基于同义词扩展的贝叶斯词义消歧方法在审
申请号: | 201611157518.1 | 申请日: | 2016-12-15 |
公开(公告)号: | CN106598947A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 杨陟卓;张虎;李茹;陈千;谭红叶 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 山西五维专利事务所(有限公司)14105 | 代理人: | 郭海燕 |
地址: | 030006 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 同义词 扩展 贝叶斯 词义 方法 | ||
技术领域
本发明属于自然语言处理方法技术领域,具体地说,涉及一种基于同义词扩展的贝叶斯词义消歧方法。
技术背景
词义消歧(Word Sense Disambiguation,WSD)是指确定多义词在自然语言特定的上下文中的意义,它是自然语言处理领域的一个核心问题。在机器理解自然语言的过程中,当一个歧义词出现在特定的上下文中时,就会出现词语的歧义现象,尤其是在当前“信息爆炸”的互联网时代,词汇的歧义问题就显得更加严重。无论是中文还是西方语言,一词多义的现象普遍存在。统计研究表明,在大规模语料库中,中文文本和英文文本在语料中出现的歧义词频率达到40%左右。频率极高的歧义词严重影响了机器对自然语言的正常理解和处理,该问题已经是其面临的最大困难之一。该技术的发展,会极大的促进诸如语言识别、句法分析、信息检索、机器翻译、文本处理等自然语言处理领域的发展。
目前,基于语料库的词义消歧方法可分为有监督和无监督方法。无监督方法不需要训练语料,但该方法的消歧效果却不尽如人意,很难达到实用目的。有监督方法的消歧效果要明显优于无监督方法,但该方法需要大规模高质量的训练语料支持,而获取大规模高质量的训练语料费时费力,严重阻碍了有监督词义消歧方法大规模应用。为了解决此问题,很多学者开始研究自动生成有标注语料的方法。该方法通常先利用字典和大规模无标注的语料库自动生成有标注数据,然后采用有监督方法训练消歧模型,进行消歧。
发明内容
本发明主要针对当前的词义消歧方法存在消歧效果差、获取消歧知识费时费力等问题,提供一种基于同义词扩展的贝叶斯词义消歧方法。
本发明为解决上述问题而采取的技术方案为:
一种基于同义词扩展的贝叶斯词义消歧方法,包括以下步骤:
步骤1、采用同义词词林将训练语料库的上下文进行扩展,生成大量伪训练语料;
步骤2、利用词语搭配语料库去除伪训练语料中的噪声,生成伪训练语料库;
步骤3、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型;
步骤4、将测试语料输入贝叶斯消歧模型,综合利用两种语料库中的消歧知识,共同决策歧义词的词义。
进一步地,本发明所述步骤1的具体步骤为:首先,采用人工标注的方式建立小规模词义消歧训练语料库,然后利用同义词词林,对歧义词所处句子中的上下文进行扩展,最后将扩展后的同义词、歧义词以及该句中歧义词的词义,生成大量伪训练语料。
本发明步骤2的具体步骤为:利用同义词词林对歧义词的上下文进行扩展,针对扩展的上下文,统计与歧义词在词语搭配语料库中共现次数,只利用具有一定共现次数的上下文,构建伪训练语料库。
本发明所述步骤3中同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,计算公式为:
公式中,si表示歧义词词义,w-L...wL表示歧义词w0附近一定窗口大小L下的词语,fj表示歧义词的某个上下文特征,F表示上下文的特征集合,p(fj|si)表示词义与特征的条件概率,计算如公式为:
c(si)表示词义si在语料库中出现的次数,c(fj,si)表示特征fj与词义si在训练语料中的共现次数。
本发明所述步骤4的具体步骤为:将由同义词词林扩展的上下文所组成的语言片段,当作伪训练语料,综合利用训练语料库和伪训练语料库中的知识,进行词义消歧,在估计词义和特征的条件概率时,由以下公式计算得出:
公式中ct(fj,si)表示词义si与特征fj在训练语料中的共现次数,ct(si)表示词义si在训练语料中的出现次数,cp(fj,si)表示特征与歧义词在伪训练语料中的共现次数,cp(si)表示词义si在伪训练语料中出现次数,λ的取值为0.7。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611157518.1/2.html,转载请声明来源钻瓜专利网。