[发明专利]一种基于语义词典的词语消歧方法有效
申请号: | 201110200321.2 | 申请日: | 2011-07-18 |
公开(公告)号: | CN102306144A | 公开(公告)日: | 2012-01-04 |
发明(设计)人: | 张卫丰;张静;王慕妮;周国强;张迎周;许碧欢;陆柳敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于语义词典的词语消歧方法,提出了基于语义词典的词语消歧方法,所提出的方法利用对词语概念相关度的计算,实现自动文本摘要的预处理工作——词语消歧,利用概念的相关关系实现语义消歧的方法,综合考虑概念、概念释义、概念的同义词、概念的扩展释义及扩展概念的同义词集合等因素及句子的连贯度要求,利用概念的相关度计算公式和回溯法选取单词的最佳词义,实现基于上下文的语义消歧。经过实验能够提高语义消歧的召回率和准确率,更好的服务于文本摘要的获取。 | ||
搜索关键词: | 一种 基于 语义 词典 词语 方法 | ||
【主权项】:
1.一种基于语义词典的词语消歧方法,其特征在于该方法主要分为以下步骤:一、获取文本集中句子列表L:步骤11)由计算机读入已程序化的文本集合D;步骤12)利用分词组件对文本集合D中的每个文本分词,得到标注后的文本集合,记为D1,步骤13)读入文本集D1,步骤14)对其中一个文本文件进行处理,读取的句子逐行放入句子列表L中;二、分割文本集中的词和词性标注,用语义词典数据库查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合:步骤21)读入虚词表和句子列表中的第一个句子,将句子中的每个单词和虚词表作比较,剔除句子中的虚词;步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号等标点符号分割句子;步骤23)读入由步骤22)分割后的第一个句子,读到斜杠,将斜杠前的单词和斜杠后的词性依次放在wordPos[i],i=0,1.....n,,i为偶数时数组存放的是单词;步骤24)将数组中单词取出放入sentenceWords中,判定sentenceWords长度;步骤241)如果长度不大于11,则转步骤25);步骤242)如果长度大于11,按长度11重新找分割点,分割完后,转步骤25);步骤25)读入语义词典和分割后句子的第一个单词,查找该词在语义词典中不同词性下的词义个数,确定单词的词性:步骤251)如果文本中该单词的词性没有被标记或者标记有错,标记有错指的是语义词典中没有找到该单词的这种词性,在这些情况下,就以语义词典中该单词的词义数最多的词性作为它的词性;步骤252)如果标记正确,单词就用它标记的词性;步骤253)如果语义词典数据库中没有该单词,就不对其进行消歧;步骤26)由步骤25)确定词性后,利用语义词典数据库查找该单词的同义词和的释义,即概念;步骤25)用语义词典查找数据库与步骤26)确定的各个概念具有直接语义关系的概念的释义,即扩展释义和扩展释义的同义词集合;步骤26)重复步骤25)到步骤27),直至找完句子中每个单词;三、利用回溯法实现基于上下文的语义消歧:步骤31)读入由步骤22)分割后第一个句子的第一个单词,将该单词的不同词义依次放入堆栈中;选中栈顶元素并出栈,将该栈顶元素记为W00,表示第0个单词的第0个词义,此时,score[0]=0,作为第0个单词的相关度;步骤32)将第二个单词的不同词义依次放入堆栈中;步骤33)选中栈顶元素并出栈,将该栈顶元素记为W10;步骤34)计算W00和W10之间的相关度,如公式(1):relatedness ( s 1 , s 2 ) = W g Gloss ( s 1 ) ∩ Syn ( s 2 ) + Syn ( s 1 ) ∩ Gloss ( s 2 ) 2 + ]]>W rg ( Σ j Gloss ( s 1 ) ∩ Syn ( r 2 j ) 2 + Σ i Syn ( r 1 i ) ∩ Gloss ( s 2 ) 2 ) + ]]> 公式(1)W r Σ i Σ j Gloss ( r 1 i ) ∩ Syn ( r 2 j ) + Syn ( r 1 i ) ∩ Gloss ( r 2 j ) 2 ]]> 其中Gloss(si)是单词si的释义;Gloss(rij)是概念rij的释义,包含rij的同义词集合中的词、描述中的词和例句中的词;Syn(si)是单词si的同义词;Syn(rij)是概念rij的同义词集合;s1,s2是句子中两个不同的单词;i是单词s1确定词性后的词义个数,j是单词S2确定词性后的词义个数;Wg,Wrg,Wr分别是重合度Gloss(s1)∩Syn(s2)、Gloss(s1)∩Syn(r2j)、Gloss(r1i)∩Syn(r2j)的权重;步骤35)计算W10与W00之间相关度,记为score[1]:score[1]=score[0]+scorecube[1][0][0][0] 公式(2)其中scorecube[1][0][0][0]是指句子中第1个单词的第0个词义与第0个单词的第0个词义的相关度;步骤36)将第三个单词的不同词义依次放入堆栈中;步骤37)选中栈顶元素并出栈,将其记为W20;步骤38)计算W20与前两个单词的第0个词义W10、W00之间的相关度总和:score[2]=score[1]+scorecube[2][0][1][0]+scorecube[2][0][0][0] 公式(3)步骤39)对句子中剩下的单词重复步骤36)到步骤38),计算相关度总和时只考虑所求单词与其前两单词之间的相关度;这样就可以得到一个句子中所有单词的第0个词义与其前面两个单词的第0个词义之间的相关度总和,相当于状态空间树中第一条分支上的相关度总和;步骤310)此时,栈顶元素为最后一个单词的第1个词义,选中并出栈;步骤311)在步骤39)得到的相关度总和基础上,通过减掉最后一个单词的第0个词义与其前两个单词的第0个词义之间的相关度,然后加上其第1个词义与前两个单词的第0个词义之间的相关度,相当于状态空间树中第二条分支上的相关度总和;步骤312)依次对栈顶元素作类似于步骤310)及步骤311)操作,就可以得到整个状态空间树所有分支的相关度总和;步骤313)再考察句子的连贯度,即单词之间的最大相关度,句子的连贯度计算如公式(4):公式(4)其中S为句子,wi是句子S中的单词,wj是紧接wi前面的两个单词,即为wi-1、wi-2,假设句子中的单词w只跟其前面的2k个单词有语义相关性,那么称这2k个单词为w的上下文,表示为Context(w);步骤314)选择相关度总和最大的那条分支,该分支上单词的词义就是经过消歧的最佳词义,到此完成分割后的第一个句子的消歧;步骤315)读入分割后的第二个句子,转到步骤23),完成消歧,直至完成第一个句子的全部消歧;步骤316)读入句子列表中第二个句子,转到步骤21),完成所有句子的消歧。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110200321.2/,转载请声明来源钻瓜专利网。