[发明专利]一种基于词统计与WordNet的义项表示与消歧方法在审
申请号: | 201910803617.X | 申请日: | 2019-08-28 |
公开(公告)号: | CN110569503A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 朱新华;郭青松;温海旭;陈宏朝 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/33 |
代理公司: | 45107 桂林市持衡专利商标事务所有限公司 | 代理人: | 陈跃琳 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同义词 语义 维基百科 词向量 向量 消歧 词语 自然语言处理 词统计模型 统计 词语义项 先验知识 向量生成 向量维度 语言环境 语义信息 语料 注解 应用 合并 认可 | ||
1.一种基于词统计与WordNet的义项表示与消歧方法,其特征是,包括如下步骤:
步骤1、获取维基百科的离线页面文件,并对离线维基百科页面文件进行预处理,得到预处理好的维基百科语料;
步骤2、对于预处理好的维基百科语料,选取词频排在前K的词作为训练目标词与向量维度词进行词统计训练,得到词共现矩阵与词向量;
步骤3、从WordNet中获取词语的义项集及其同义词集;
步骤4、步骤2所得到的词共现矩阵与词向量和步骤3所得到的义项集及其同义词集,通过合并同义词的词向量,生成词语的义项向量;
步骤5、从WordNet中获取词语的每个义项的注解集;
步骤6、将义项注解句与消歧文本形成待比较的文本对列表;
步骤7、将待比较文本对列表中的文本,进行词根还原处理,提取出它们之中的名词与动词分别作为它们的核心语义袋,以将文本对的比较转换为由名词和动词组成的核心语义袋的比较;
步骤8、通过核心语义袋,计算出词语每个义项的注解集与消歧文本之间的相似度;
步骤9、根据词语每个义项的注解集与消歧文本之间的相似度,输出注解集与消歧文本相似度最高的义项作为消歧结果。
2.根据权利要求1所述的一种基于词统计与WordNet的义项表示与消歧方法,其特征是,步骤4的具体过程如下:
步骤4.1、对于词语t的第i个义项ti,将该词语t的词向量V(t)作为义项ti的初始化义项向量SV0(ti),即令SV0(ti)=V(t);
步骤4.2、对于同义词集中单义同义词st,依次采用下式将该单义同义词st的词向量V(st)与初始化义项向量SV0(ti)进行迭代合并,生成义项ti的一级义项向量SV1(ti),如下式所示:
SV1(ti)={(si,wt(si,SV0(ti))+wt(si,V(st))|si∈D1∪D2}
其中,wt(si,SV0(ti))表示维度词si在初始化义项向量SV0(ti)中的权重,wt(si,V(st))表示维度词si在词向量V(st)中的权重,D1表示初始化义项向量SV0(ti)中权重不为0的维度词的集合,D2表示词向量V(st)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果SV1(ti)作为初始化义项向量SV0(ti),即令SV0(ti)=SV1(ti);若义项ti同义词集中不存在任何单义同义词,则令SV1(ti)=SV0(ti);
步骤4.3、对于同义词集中多义同义词dt,依次采用下式将该多义同义词dt词向量V(dt)与一级义项向量SV1(ti)进行迭代合并,生成义项ti的二级义项向量SV2(ti),如下式所示:
其中,wt(si,SV1(ti))表示维度词si在一级义项向量SV1(ti)中的权重,wt2(si,V(dt))表示维度词si在词向量V(dt)中的权重,wt(sj,SV1(ti))表示维度词sj在一级义项向量SV1(ti)中的权重,D3表示一级义项向量SV1(ti)中权重不为0的维度词的集合,D4表示词向量V(dt)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果SV2(ti)作为一级义项向量SV1(ti),即令SV1(ti)=SV2(ti);若义项ti同义词集中不存在任何多义同义词,则令SV2(ti)=SV1(ti);
步骤4.4、对于义项ti同义词集中的组合同义词ct,将该组合同义词ct中的第一个词ft的词向量V(ft)作为组合同义词ct的初始化组合词向量CV0(ct),即令CV0(ct)=V(ft);
步骤4.5、对于组合词同义词ct中的独立词at,依次采用下式将词向量V(at)与初始化组合词向量CV0(ct)进行迭代合并,生成组合同义词组合同义词ct的一级组合词向量CV1(ct),如下式所示:
其中,wt(si,CV0(ct))表示维度词si在初始化组合词向量CV0(ct)中的权重,wt(si,V(at))表示维度词si在词向量V(at)中的权重,wt(sj,CV0(ct))表示维度词sj在初始化组合词向量CV0(ct)中的权重,D5表示初始化组合词向量CV0(ct)中权重不为0的维度词的集合,D6表示词向量V(at)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果CV1(ct)作为初始化组合词向量CV0(ct),即令CV0(ct)=CV1(ct);
步骤4.6、依次将步骤4.3所得ti的二级义项向量SV2(ti)与步骤4.5所得的一级组合词向量CV1(ct)进行迭代合并,生成义项ti的最终向量SFV(ti),如下式所示:
其中,wt(si,SV2(ti))表示维度词si在二级义项向量SV2(ti)中的权重,wt(si,CV1(ct))表示维度词si在一级组合词向量CV1(ct)中的权重,wt(sj,SV2(ti))表示维度词sj在二级义项向量SV2(ti)中的权重,D7表示二级义项向量SV2(ti)中权重不为0的维度词的集合,D8表示一级组合词向量CV1(ct)中权重不为0的维度词的集合;
在每次迭代合并前,先使用上一次迭代合并的结果SFV(ti)作为二级义项向量SV2(ti),即令SV2(ti)=SFV(ti);若义项ti同义词集中无任何组合同义词,则令SFV(ti)=SV2(ti)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910803617.X/1.html,转载请声明来源钻瓜专利网。