[发明专利]一种基于本体和群智能算法的中文歧义切分方法有效
申请号: | 201710464556.X | 申请日: | 2017-06-19 |
公开(公告)号: | CN107391574B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 林焓;薛醒思 | 申请(专利权)人: | 福建工程学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/36;G06F40/216;G06F40/295;G06F40/30 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙) 35212 | 代理人: | 林云娇 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 本体 智能 算法 中文 歧义 切分 方法 | ||
本发明提供一种基于本体和群智能算法的中文歧义切分方法,包括:获取用户输入的一个问句进行预处理,得到至少一个候选切分方式,形成候选切分方式集合W;利用本体中标注的同义词信息创建同义词簇;并计算词形的词位置e;以三个连续词形为单位,创建双向三元模型、含词位置信息的语义双向三元模型以及含词位置信息的偏好语义双向三元模型,计算每一种候选切分方式在不同模型下出现的概率;利用不同的模型以及考虑句子断点向量的淘汰集,创建单目标优化模型,并通过群智能算法求解最优的句子断点向量,作为最优分词结果。本发明结合本体计算词频,并利用智能群算法求最优句子断点向量,有效降低错误分词结果,大大提高分词准确性。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种用于图书馆检索的基于本体和群智能算法的中文歧义切分技术。
背景技术
图书馆智能虚拟参考咨询系统是一类信息检索系统,该系统依赖于自然语言处理技术来实现对用户检索意图的理解,从而完成后续的信息检索过程。由于自然语言处理技术直接影响着图书馆智能虚拟参考咨询系统的性能,因此实现该技术的自然语言处理模块是图书馆智能虚拟参考咨询系统的核心模块,而中文分词技术是自然语言处理的基础。
目前,中文分词技术领域中,基于统计的方法逐渐成为主流方法之一。基于统计的分词方法是根据某种概率统计模型统计语料库(即训练语料)中词的出现频率或概率,作为衡量待切分句子中所有子序列组合是否成词的标准。现有文献中,王晓龙等1991年提出将词频统计应用在在分词技术中,提出了一种最少分词词频选择算法(具体见王晓龙,王开铸,白小华.自然语言理解中的音字流自动分词[J].中文信息学报,1991,5(3):48-58.),该方法利用最少匹配算法确定候选结果集,然后再利用静态的词频统计结果和候选词词长来排序候选结果,达到了查准率小于双向最大匹配法的效果;Tang等将n-gram和互信息结合提出NGMI算法(具体见Tang Ling Xiang,Geva Shlomo,Xu Yue,et al.Word Segmentationfor Chinese Wikipedia Using N-Gram Mutual Information[J].Plos Medicine,2009,2(7):576-582.),该算法需要从语料库中提取单字、二字、三字、四字频度来计算NGMI,达到查全率高于ICTCLAS(汉语词法分析系统,具体可参见刘群,张华平,俞鸿魁,等.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429.);何爱元等提出综合考虑了基于词频和分词位置的双向三元模型(具体见何爱元.基于词典和概率统计的中文分词算法研究[D].辽宁大学,2011.),该方法同ICTCLAS相比,分词速度有一定的优势,查全率和查准率都远大于正向最大匹配法。巫黄旭提出将逐点互信息、信息熵和对数似然比联合起来提出字间关联度来辅助分词(具体见巫黄旭.基于统计学习的中文分词改进及其在面向应用分词中的应用[D].浙江大学,2012.)。该方法统计语料库中的单字频度、字对频度、三字频度来计算字间关联度,显著地提高了已有方法的查准率和查全率。
上述基于统计的分词技术中,都仅仅考虑词形因素,忽略了一意多词的现象,导致相关技术无法在不同背景下保证分词结果的质量。
另外,由于在分词过程中,断点位置直接影响分词结果的质量,不合理的断点位置也会导致错误的分词结果,导致分词的准确性不高。
有鉴于此,本发明提供一种基于图书馆领域本体和群智能算法的中文歧义切分方法,且为了对本发明方法进行详细说明,引入以下概念:
本体:是共享概念模型的明确的形式化规范说明,它由概念以及概念间的关系组成的;
N元模型:N元模型的任务是求出由任意词序列(wi,1wi,2…)T组成的句子Wi出现的概率P(Wi),该模型认为词wi,j的出现概率只同它前面的N-1个词有关(正向);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建工程学院,未经福建工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710464556.X/2.html,转载请声明来源钻瓜专利网。