[发明专利]一种基于词统计与WordNet的义项表示与消歧方法在审
申请号: | 201910803617.X | 申请日: | 2019-08-28 |
公开(公告)号: | CN110569503A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 朱新华;郭青松;温海旭;陈宏朝 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/33 |
代理公司: | 45107 桂林市持衡专利商标事务所有限公司 | 代理人: | 陈跃琳 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于词统计与WordNet的义项表示与消歧方法,发明利用WordNet中已经整理好的在国际上广泛认可的词语义项集与同义词集作为先验知识,提出了一种基于维基百科词统计的义项向量生成方法,该方法以维基百科中作为语料,利用词统计模型训练得到初步的词向量,然后充分利用词统计向量维度词的语义信息,合并WordNet同义词的词向量,形成词语的义项向量,同时还提出了利用WordNet注解来进行义项消歧的方法,这样可以提高词语在不同语言环境下的语义计算精度,从而能够在实际应用中合理、准确地使用义项向量,并可广泛应用于自然语言处理的各种语义计算场合。 | ||
搜索关键词: | 同义词 语义 维基百科 词向量 向量 消歧 词语 自然语言处理 词统计模型 统计 词语义项 先验知识 向量生成 向量维度 语言环境 语义信息 语料 注解 应用 合并 认可 | ||
【主权项】:
1.一种基于词统计与WordNet的义项表示与消歧方法,其特征是,包括如下步骤:/n步骤1、获取维基百科的离线页面文件,并对离线维基百科页面文件进行预处理,得到预处理好的维基百科语料;/n步骤2、对于预处理好的维基百科语料,选取词频排在前K的词作为训练目标词与向量维度词进行词统计训练,得到词共现矩阵与词向量;/n步骤3、从WordNet中获取词语的义项集及其同义词集;/n步骤4、步骤2所得到的词共现矩阵与词向量和步骤3所得到的义项集及其同义词集,通过合并同义词的词向量,生成词语的义项向量;/n步骤5、从WordNet中获取词语的每个义项的注解集;/n步骤6、将义项注解句与消歧文本形成待比较的文本对列表;/n步骤7、将待比较文本对列表中的文本,进行词根还原处理,提取出它们之中的名词与动词分别作为它们的核心语义袋,以将文本对的比较转换为由名词和动词组成的核心语义袋的比较;/n步骤8、通过核心语义袋,计算出词语每个义项的注解集与消歧文本之间的相似度;/n步骤9、根据词语每个义项的注解集与消歧文本之间的相似度,输出注解集与消歧文本相似度最高的义项作为消歧结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910803617.X/,转载请声明来源钻瓜专利网。