[发明专利]一种基于语义词典的词语消歧方法有效

申请号：	201110200321.2	申请日：	2011-07-18
公开（公告）号：	CN102306144A	公开（公告）日：	2012-01-04
发明（设计）人：	张卫丰;张静;王慕妮;周国强;张迎周;许碧欢;陆柳敏	申请（专利权）人：	南京邮电大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	叶连生
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语义词典词语方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于语义词典的词语消歧方法，其特征在于该方法主要分为以下步骤：

一、获取文本集中句子列表L：

步骤11)由计算机读入已程序化的文本集合D；

步骤12)利用分词组件对文本集合D中的每个文本分词，得到标注后的文本集合，记为D1，

步骤13)读入文本集D1，

步骤14)对其中一个文本文件进行处理，读取的句子逐行放入句子列表L中；

二、分割文本集中的词和词性标注，用语义词典数据库查找每个单词的释义，同义词集合，扩展释义和扩展同义词集合：

步骤21)读入虚词表和句子列表中的第一个句子，将句子中的每个单词和虚词表作比较，剔除句子中的虚词；

步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号等标点符号分割句子；

步骤23)读入由步骤22)分割后的第一个句子，读到斜杠，将斜杠前的单词和斜杠后的词性依次放在wordPos[i]，i＝0，1.....n，，i为偶数时数组存放的是单词；

步骤24)将数组中单词取出放入sentenceWords中，判定sentenceWords长度；

步骤241)如果长度不大于11，则转步骤25)；

步骤242)如果长度大于11，按长度11重新找分割点，分割完后，转步骤25)；

步骤25)读入语义词典和分割后句子的第一个单词，查找该词在语义词典中不同词性下的词义个数，确定单词的词性：

步骤251)如果文本中该单词的词性没有被标记或者标记有错，标记有错指的是语义词典中没有找到该单词的这种词性，在这些情况下，就以语义词典中该单词的词义数最多的词性作为它的词性；

步骤252)如果标记正确，单词就用它标记的词性；

步骤253)如果语义词典数据库中没有该单词，就不对其进行消歧；

步骤26)由步骤25)确定词性后，利用语义词典数据库查找该单词的同义词和的释义，即概念；

步骤25)用语义词典查找数据库与步骤26)确定的各个概念具有直接语义关系的概念的释义，即扩展释义和扩展释义的同义词集合；

步骤26)重复步骤25)到步骤27)，直至找完句子中每个单词；

三、利用回溯法实现基于上下文的语义消歧：

步骤31)读入由步骤22)分割后第一个句子的第一个单词，将该单词的不同词义依次放入堆栈中；选中栈顶元素并出栈，将该栈顶元素记为W₀₀，表示第0个单词的第0个词义，此时，score[0]＝0，作为第0个单词的相关度；

步骤32)将第二个单词的不同词义依次放入堆栈中；

步骤33)选中栈顶元素并出栈，将该栈顶元素记为W₁₀；

步骤34)计算W₀₀和W₁₀之间的相关度，如公式(1)：

relatedness(s1,s2)=WgGloss(s1)∩Syn(s2)+Syn(s1)∩Gloss(s2)2+]]>

Wrg(ΣjGloss(s1)∩Syn(r2j)2+ΣiSyn(r1i)∩Gloss(s2)2)+]]>公式(1)

WrΣiΣjGloss(r1i)∩Syn(r2j)+Syn(r1i)∩Gloss(r2j)2]]>

其中Gloss(s_i)是单词s_i的释义；Gloss(r_ij)是概念r_ij的释义，包含r_ij的同义词集合中的词、描述中的词和例句中的词；Syn(s_i)是单词s_i的同义词；Syn(r_ij)是概念r_ij的同义词集合；s₁，s₂是句子中两个不同的单词；i是单词s₁确定词性后的词义个数，j是单词S₂确定词性后的词义个数；W_g，W_rg，W_r分别是重合度Gloss(s₁)∩Syn(s₂)、Gloss(s₁)∩Syn(r_2j)、Gloss(r_1i)∩Syn(r_2j)的权重；