[发明专利]一种基于同义词扩展的贝叶斯词义消歧方法在审
申请号: | 201611157518.1 | 申请日: | 2016-12-15 |
公开(公告)号: | CN106598947A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 杨陟卓;张虎;李茹;陈千;谭红叶 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 山西五维专利事务所(有限公司)14105 | 代理人: | 郭海燕 |
地址: | 030006 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 同义词 扩展 贝叶斯 词义 方法 | ||
1.一种基于同义词扩展的贝叶斯词义消歧方法,其特征在于包括以下步骤:
步骤1、采用同义词词林将训练语料库的上下文进行扩展,生成大量伪训练语料;
步骤2、利用词语搭配语料库去除伪训练语料中的噪声,生成伪训练语料库;
步骤3、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型;
步骤4、将测试语料输入贝叶斯消歧模型,综合利用两种语料库中的消歧知识,共同决策歧义词的词义。
2.根据权利要求1所述的一种基于同义词扩展的贝叶斯词义消歧方法,其特征在于:所述步骤1的具体步骤为:首先,采用人工标注的方式建立小规模词义消歧训练语料库,然后利用同义词词林,对歧义词所处句子中的上下文进行扩展,最后将扩展后的同义词、歧义词以及该句中歧义词的词义,生成大量伪训练语料。
3.根据权利要求1所述的一种基于同义词扩展的贝叶斯词义消歧方法,其特征在于步骤2的具体步骤为:利用同义词词林对歧义词的上下文进行扩展,针对扩展的上下文,统计与歧义词在词语搭配语料库中共现次数,只利用具有一定共现次数的上下文,构建伪训练语料库。
4.根据权利要求1所述的一种基于同义词扩展的贝叶斯词义消歧方法,其特征在于:所述步骤3中同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,计算公式为:
公式中,si表示歧义词词义,w-L...wL表示歧义词w0附近一定窗口大小L下的词语,fj表示歧义词的某个上下文特征,F表示上下文的特征集合,p(fj|si)表示词义与特征的条件概率,计算如公式为:
c(si)表示词义si在语料库中出现的次数,c(fj,si)表示特征fj与词义si在训练语料中的共现次数。
5.根据权利要求1所述的一种基于同义词扩展的贝叶斯词义消歧方法,其特征在于:所述步骤4的具体步骤为:将由同义词词林扩展的上下文所组成的语言片段,当作伪训练语料,综合利用训练语料库和伪训练语料库中的知识,进行词义消歧,在估计词义和特征的条件概率时,由以下公式计算得出:
公式中ct(fj,si)表示词义si与特征fj在训练语料中的共现次数,ct(si)表示词义si在训练语料中的出现次数,cp(fj,si)表示特征与歧义词在伪训练语料中的共现次数,cp(si)表示词义si在伪训练语料中出现次数,λ取值为0.7。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611157518.1/1.html,转载请声明来源钻瓜专利网。