[发明专利]一种基于相关词主题的语义消歧方法和系统在审
申请号: | 201310264284.0 | 申请日: | 2013-06-28 |
公开(公告)号: | CN103365974A | 公开(公告)日: | 2013-10-23 |
发明(设计)人: | 方高林 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 朱海波 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相关 主题 语义 方法 系统 | ||
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于相关词主题的语义消歧方法和系统。
背景技术
由于语言的特定含义在不同的上下文环境中,存在不同的解释,比如“化妆和服装”可以分成“化妆”、“和”、“服装”或者“化妆”、“和服”、“装”。由于没有人的知识去理解,容易产生歧义,计算机很难知道到底哪个方案正确,因此,有必要引导计算机进行正确的词义识别。
随着语言处理技术的发展,已有的词义消歧方法主要基于语义词典,通过语义词典数据库查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合,但由于词典数据库毕竟具有局限性,词汇覆盖面以及新词处理方面存在缺陷,其更新的速度并不能较好地适应实际语言应用的快速变化。
因此,希望可以提出一种针对性强、灵活度高、应用范围广的语义消歧的方法和系统,以应对快速变化的语言环境,进行正确的语义识别,消除语言中容易产生的歧义。
发明内容
本发明的目的在于提供一种基于相关词主题的语义消歧方法和系统,可以有效应对快速变化的语言环境,进行正确的语义识别,达到语义消歧。
根据本发明的一个方面,提供了一种基于相关词主题的语义消歧方法,该方法包括以下步骤:
基于相关词主题挖掘相关词;
对每个词进行编号并建立对应的频率特征向量;
计算词与词之间的互信息值,并将互信息值作为特征向量;
计算词与词之间的相似度及单个词的相关词;
语义消歧。
根据本发明的另一方面,本发明提供了一种基于相关词主题的语义消歧系统,包括相关词挖掘模块、语义相关词计算模块以及语义消歧模块,其中:
所述的相关词挖掘模块,基于相关词主题对相关词进行挖掘;
所述的语义相关词计算模块,用于对每个词进行编号并建立对应的频率特征向量、计算词与词之间的互信息值并将互信息值作为特征向量、计算词与词之间的相似度及单个词的相关词;
所述的语义消歧模块,用于语义消歧。
与现有技术相比,本发明具有以下优点:
1)灵活度高,针对不同的文本,根据不同的特定语境,通过上下文的连贯性进行语义的正确识别;
2)克服了语义词典的局限性,能够及时应对快速变化的语言环境,快速地识别具有高度相似性的词,以更好的消歧。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明的一个优选实施例的基于相关词主题的语义消歧方法流程图;
图2是根据本发明的一个优选实施例的挖掘相关词中分词的示意图;
图3是根据本发明的一个优选实施例的基于相关词主题的语义消歧系统的示意性框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施例作详细描述。
根据本发明的一个方面,提供了一种优选实施例的基于相关词主题的语义消歧方法。请参照图1,图1是根据本发明的一个优选实施例的基于相关词主题的语义消歧方法流程图,包括以下步骤:
步骤101,基于相关词主题挖掘相关词。
具体地,本文所述的相关词主题表现为一系列相关的词,能够代表某个特定主题。例如,对于句子“富士苹果很甜”以及“苹果很好用”,分别所对应的主题可以为“水果”和“手机”。通常,获取相关词主题后,可以构建相关词主题模型,即针对文本隐含主题所构建的模型。所谓隐含,是指相关词主题模型并不直接通过一系列诸如“水果”等显性含义的词去描述,而是基于词的相关性进行隐性描述。
通常,不同主题对应不同的词,例如对于主题“百度”,那么“搜索引擎”、“知道”等词就会以很高的频率出现,从数学角度而言,主题体现为词汇表上词语的条件概率分布,与主题越密切的词,条件概率越高。又如,对于主题“庐山恋2”,则与其相关的词大多表现为“初恋红豆沙”、“四个丘比特”等。也即,这些词语和主题之间具有很强的语义相关性。当然,对于同一语义的词,其也可以对应不同主题,例如,对于词“搜索引擎”,其可以对应“百度”主题,也可以对应“谷歌”主题。
进一步地,本实施例中的主题(topic)根据规模可分为以下两大类:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310264284.0/2.html,转载请声明来源钻瓜专利网。