[发明专利]一种基于同义词扩展的贝叶斯词义消歧方法在审

专利信息
申请号: 201611157518.1 申请日: 2016-12-15
公开(公告)号: CN106598947A 公开(公告)日: 2017-04-26
发明(设计)人: 杨陟卓;张虎;李茹;陈千;谭红叶 申请(专利权)人: 山西大学
主分类号: G06F17/27 分类号: G06F17/27;G06K9/62
代理公司: 山西五维专利事务所(有限公司)14105 代理人: 郭海燕
地址: 030006 山*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 同义词 扩展 贝叶斯 词义 方法
【权利要求书】:

1.一种基于同义词扩展的贝叶斯词义消歧方法,其特征在于包括以下步骤:

步骤1、采用同义词词林将训练语料库的上下文进行扩展,生成大量伪训练语料;

步骤2、利用词语搭配语料库去除伪训练语料中的噪声,生成伪训练语料库;

步骤3、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型;

步骤4、将测试语料输入贝叶斯消歧模型,综合利用两种语料库中的消歧知识,共同决策歧义词的词义。

2.根据权利要求1所述的一种基于同义词扩展的贝叶斯词义消歧方法,其特征在于:所述步骤1的具体步骤为:首先,采用人工标注的方式建立小规模词义消歧训练语料库,然后利用同义词词林,对歧义词所处句子中的上下文进行扩展,最后将扩展后的同义词、歧义词以及该句中歧义词的词义,生成大量伪训练语料。

3.根据权利要求1所述的一种基于同义词扩展的贝叶斯词义消歧方法,其特征在于步骤2的具体步骤为:利用同义词词林对歧义词的上下文进行扩展,针对扩展的上下文,统计与歧义词在词语搭配语料库中共现次数,只利用具有一定共现次数的上下文,构建伪训练语料库。

4.根据权利要求1所述的一种基于同义词扩展的贝叶斯词义消歧方法,其特征在于:所述步骤3中同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,计算公式为:

<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>|</mo><msub><mi>w</mi><mrow><mo>-</mo><mi>L</mi></mrow></msub><mo>...</mo><msub><mi>w</mi><mn>0</mn></msub><mo>...</mo><msub><mi>w</mi><mi>L</mi></msub><mo>)</mo></mrow><mo>&Proportional;</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><munder><mo>&Pi;</mo><mrow><msub><mi>f</mi><mi>j</mi></msub><mo>&Element;</mo><mi>F</mi></mrow></munder><mi>p</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>j</mi></msub><mo>|</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow>

公式中,si表示歧义词词义,w-L...wL表示歧义词w0附近一定窗口大小L下的词语,fj表示歧义词的某个上下文特征,F表示上下文的特征集合,p(fj|si)表示词义与特征的条件概率,计算如公式为:

<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>j</mi></msub><mo>|</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>c</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>j</mi></msub><mo>,</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>c</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>

c(si)表示词义si在语料库中出现的次数,c(fj,si)表示特征fj与词义si在训练语料中的共现次数。

5.根据权利要求1所述的一种基于同义词扩展的贝叶斯词义消歧方法,其特征在于:所述步骤4的具体步骤为:将由同义词词林扩展的上下文所组成的语言片段,当作伪训练语料,综合利用训练语料库和伪训练语料库中的知识,进行词义消歧,在估计词义和特征的条件概率时,由以下公式计算得出:

<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>j</mi></msub><mo>|</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>c</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>f</mi><mi>j</mi></msub><mo>,</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><msub><mi>c</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mi>&lambda;</mi><mfrac><mrow><msub><mi>c</mi><mi>p</mi></msub><mrow><mo>(</mo><msub><mi>f</mi><mi>j</mi></msub><mo>,</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><msub><mi>c</mi><mi>p</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow>

公式中ct(fj,si)表示词义si与特征fj在训练语料中的共现次数,ct(si)表示词义si在训练语料中的出现次数,cp(fj,si)表示特征与歧义词在伪训练语料中的共现次数,cp(si)表示词义si在伪训练语料中出现次数,λ取值为0.7。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611157518.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top