[发明专利]一种基于语义词典的词语消歧方法有效
申请号: | 201110200321.2 | 申请日: | 2011-07-18 |
公开(公告)号: | CN102306144A | 公开(公告)日: | 2012-01-04 |
发明(设计)人: | 张卫丰;张静;王慕妮;周国强;张迎周;许碧欢;陆柳敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 词典 词语 方法 | ||
1.一种基于语义词典的词语消歧方法,其特征在于该方法主要分为以下步骤:
一、获取文本集中句子列表L:
步骤11)由计算机读入已程序化的文本集合D;
步骤12)利用分词组件对文本集合D中的每个文本分词,得到标注后的文本集合,记为D1,
步骤13)读入文本集D1,
步骤14)对其中一个文本文件进行处理,读取的句子逐行放入句子列表L中;
二、分割文本集中的词和词性标注,用语义词典数据库查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合:
步骤21)读入虚词表和句子列表中的第一个句子,将句子中的每个单词和虚词表作比较,剔除句子中的虚词;
步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号等标点符号分割句子;
步骤23)读入由步骤22)分割后的第一个句子,读到斜杠,将斜杠前的单词和斜杠后的词性依次放在wordPos[i],i=0,1.....n,,i为偶数时数组存放的是单词;
步骤24)将数组中单词取出放入sentenceWords中,判定sentenceWords长度;
步骤241)如果长度不大于11,则转步骤25);
步骤242)如果长度大于11,按长度11重新找分割点,分割完后,转步骤25);
步骤25)读入语义词典和分割后句子的第一个单词,查找该词在语义词典中不同词性下的词义个数,确定单词的词性:
步骤251)如果文本中该单词的词性没有被标记或者标记有错,标记有错指的是语义词典中没有找到该单词的这种词性,在这些情况下,就以语义词典中该单词的词义数最多的词性作为它的词性;
步骤252)如果标记正确,单词就用它标记的词性;
步骤253)如果语义词典数据库中没有该单词,就不对其进行消歧;
步骤26)由步骤25)确定词性后,利用语义词典数据库查找该单词的同义词和的释义,即概念;
步骤25)用语义词典查找数据库与步骤26)确定的各个概念具有直接语义关系的概念的释义,即扩展释义和扩展释义的同义词集合;
步骤26)重复步骤25)到步骤27),直至找完句子中每个单词;
三、利用回溯法实现基于上下文的语义消歧:
步骤31)读入由步骤22)分割后第一个句子的第一个单词,将该单词的不同词义依次放入堆栈中;选中栈顶元素并出栈,将该栈顶元素记为W00,表示第0个单词的第0个词义,此时,score[0]=0,作为第0个单词的相关度;
步骤32)将第二个单词的不同词义依次放入堆栈中;
步骤33)选中栈顶元素并出栈,将该栈顶元素记为W10;
步骤34)计算W00和W10之间的相关度,如公式(1):
其中Gloss(si)是单词si的释义;Gloss(rij)是概念rij的释义,包含rij的同义词集合中的词、描述中的词和例句中的词;Syn(si)是单词si的同义词;Syn(rij)是概念rij的同义词集合;s1,s2是句子中两个不同的单词;i是单词s1确定词性后的词义个数,j是单词S2确定词性后的词义个数;Wg,Wrg,Wr分别是重合度Gloss(s1)∩Syn(s2)、Gloss(s1)∩Syn(r2j)、Gloss(r1i)∩Syn(r2j)的权重;
步骤35)计算W10与W00之间相关度,记为score[1]:
score[1]=score[0]+scorecube[1][0][0][0] 公式(2)
其中scorecube[1][0][0][0]是指句子中第1个单词的第0个词义与第0个单词的第0个词义的相关度;
步骤36)将第三个单词的不同词义依次放入堆栈中;
步骤37)选中栈顶元素并出栈,将其记为W20;
步骤38)计算W20与前两个单词的第0个词义W10、W00之间的相关度总和:
score[2]=score[1]+scorecube[2][0][1][0]+scorecube[2][0][0][0] 公式(3)
步骤39)对句子中剩下的单词重复步骤36)到步骤38),计算相关度总和时只考虑所求单词与其前两单词之间的相关度;这样就可以得到一个句子中所有单词的第0个词义与其前面两个单词的第0个词义之间的相关度总和,相当于状态空间树中第一条分支上的相关度总和;
步骤310)此时,栈顶元素为最后一个单词的第1个词义,选中并出栈;
步骤311)在步骤39)得到的相关度总和基础上,通过减掉最后一个单词的第0个词义与其前两个单词的第0个词义之间的相关度,然后加上其第1个词义与前两个单词的第0个词义之间的相关度,相当于状态空间树中第二条分支上的相关度总和;
步骤312)依次对栈顶元素作类似于步骤310)及步骤311)操作,就可以得到整个状态空间树所有分支的相关度总和;
步骤313)再考察句子的连贯度,即单词之间的最大相关度,句子的连贯度计算如公式(4):
公式(4)
其中S为句子,wi是句子S中的单词,wj是紧接wi前面的两个单词,即为wi-1、wi-2,假设句子中的单词w只跟其前面的2k个单词有语义相关性,那么称这2k个单词为w的上下文,表示为Context(w);
步骤314)选择相关度总和最大的那条分支,该分支上单词的词义就是经过消歧的最佳词义,到此完成分割后的第一个句子的消歧;
步骤315)读入分割后的第二个句子,转到步骤23),完成消歧,直至完成第一个句子的全部消歧;
步骤316)读入句子列表中第二个句子,转到步骤21),完成所有句子的消歧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110200321.2/1.html,转载请声明来源钻瓜专利网。