[发明专利]一种基于词统计与WordNet的义项表示与消歧方法在审

专利信息
申请号: 201910803617.X 申请日: 2019-08-28
公开(公告)号: CN110569503A 公开(公告)日: 2019-12-13
发明(设计)人: 朱新华;郭青松;温海旭;陈宏朝 申请(专利权)人: 广西师范大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/33
代理公司: 45107 桂林市持衡专利商标事务所有限公司 代理人: 陈跃琳
地址: 541004 广西壮*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 同义词 语义 维基百科 词向量 向量 消歧 词语 自然语言处理 词统计模型 统计 词语义项 先验知识 向量生成 向量维度 语言环境 语义信息 语料 注解 应用 合并 认可
【权利要求书】:

1.一种基于词统计与WordNet的义项表示与消歧方法,其特征是,包括如下步骤:

步骤1、获取维基百科的离线页面文件,并对离线维基百科页面文件进行预处理,得到预处理好的维基百科语料;

步骤2、对于预处理好的维基百科语料,选取词频排在前K的词作为训练目标词与向量维度词进行词统计训练,得到词共现矩阵与词向量;

步骤3、从WordNet中获取词语的义项集及其同义词集;

步骤4、步骤2所得到的词共现矩阵与词向量和步骤3所得到的义项集及其同义词集,通过合并同义词的词向量,生成词语的义项向量;

步骤5、从WordNet中获取词语的每个义项的注解集;

步骤6、将义项注解句与消歧文本形成待比较的文本对列表;

步骤7、将待比较文本对列表中的文本,进行词根还原处理,提取出它们之中的名词与动词分别作为它们的核心语义袋,以将文本对的比较转换为由名词和动词组成的核心语义袋的比较;

步骤8、通过核心语义袋,计算出词语每个义项的注解集与消歧文本之间的相似度;

步骤9、根据词语每个义项的注解集与消歧文本之间的相似度,输出注解集与消歧文本相似度最高的义项作为消歧结果。

2.根据权利要求1所述的一种基于词统计与WordNet的义项表示与消歧方法,其特征是,步骤4的具体过程如下:

步骤4.1、对于词语t的第i个义项ti,将该词语t的词向量V(t)作为义项ti的初始化义项向量SV0(ti),即令SV0(ti)=V(t);

步骤4.2、对于同义词集中单义同义词st,依次采用下式将该单义同义词st的词向量V(st)与初始化义项向量SV0(ti)进行迭代合并,生成义项ti的一级义项向量SV1(ti),如下式所示:

SV1(ti)={(si,wt(si,SV0(ti))+wt(si,V(st))|si∈D1∪D2}

其中,wt(si,SV0(ti))表示维度词si在初始化义项向量SV0(ti)中的权重,wt(si,V(st))表示维度词si在词向量V(st)中的权重,D1表示初始化义项向量SV0(ti)中权重不为0的维度词的集合,D2表示词向量V(st)中权重不为0的维度词的集合;

在每次迭代合并前,先使用上一次迭代合并的结果SV1(ti)作为初始化义项向量SV0(ti),即令SV0(ti)=SV1(ti);若义项ti同义词集中不存在任何单义同义词,则令SV1(ti)=SV0(ti);

步骤4.3、对于同义词集中多义同义词dt,依次采用下式将该多义同义词dt词向量V(dt)与一级义项向量SV1(ti)进行迭代合并,生成义项ti的二级义项向量SV2(ti),如下式所示:

其中,wt(si,SV1(ti))表示维度词si在一级义项向量SV1(ti)中的权重,wt2(si,V(dt))表示维度词si在词向量V(dt)中的权重,wt(sj,SV1(ti))表示维度词sj在一级义项向量SV1(ti)中的权重,D3表示一级义项向量SV1(ti)中权重不为0的维度词的集合,D4表示词向量V(dt)中权重不为0的维度词的集合;

在每次迭代合并前,先使用上一次迭代合并的结果SV2(ti)作为一级义项向量SV1(ti),即令SV1(ti)=SV2(ti);若义项ti同义词集中不存在任何多义同义词,则令SV2(ti)=SV1(ti);

步骤4.4、对于义项ti同义词集中的组合同义词ct,将该组合同义词ct中的第一个词ft的词向量V(ft)作为组合同义词ct的初始化组合词向量CV0(ct),即令CV0(ct)=V(ft);

步骤4.5、对于组合词同义词ct中的独立词at,依次采用下式将词向量V(at)与初始化组合词向量CV0(ct)进行迭代合并,生成组合同义词组合同义词ct的一级组合词向量CV1(ct),如下式所示:

其中,wt(si,CV0(ct))表示维度词si在初始化组合词向量CV0(ct)中的权重,wt(si,V(at))表示维度词si在词向量V(at)中的权重,wt(sj,CV0(ct))表示维度词sj在初始化组合词向量CV0(ct)中的权重,D5表示初始化组合词向量CV0(ct)中权重不为0的维度词的集合,D6表示词向量V(at)中权重不为0的维度词的集合;

在每次迭代合并前,先使用上一次迭代合并的结果CV1(ct)作为初始化组合词向量CV0(ct),即令CV0(ct)=CV1(ct);

步骤4.6、依次将步骤4.3所得ti的二级义项向量SV2(ti)与步骤4.5所得的一级组合词向量CV1(ct)进行迭代合并,生成义项ti的最终向量SFV(ti),如下式所示:

其中,wt(si,SV2(ti))表示维度词si在二级义项向量SV2(ti)中的权重,wt(si,CV1(ct))表示维度词si在一级组合词向量CV1(ct)中的权重,wt(sj,SV2(ti))表示维度词sj在二级义项向量SV2(ti)中的权重,D7表示二级义项向量SV2(ti)中权重不为0的维度词的集合,D8表示一级组合词向量CV1(ct)中权重不为0的维度词的集合;

在每次迭代合并前,先使用上一次迭代合并的结果SFV(ti)作为二级义项向量SV2(ti),即令SV2(ti)=SFV(ti);若义项ti同义词集中无任何组合同义词,则令SFV(ti)=SV2(ti)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910803617.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top