[发明专利]一种基于Mean Shift的融合词性和句子信息的词表示方法有效

专利信息
申请号: 201810534989.2 申请日: 2018-05-30
公开(公告)号: CN108763487B 公开(公告)日: 2021-08-10
发明(设计)人: 邓辉舫;赖港明 申请(专利权)人: 华南理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06K9/62
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 冯炳辉
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 mean shift 融合 词性 句子 信息 词表 方法
【说明书】:

发明公开了一种基于Mean Shift的融合词性和句子信息的词表示方法,包括步骤:1)对语料进行分词和词性标注;2)使用skim‑gram、CROW方法训练得到字词联合向量;3)通过使用skim‑gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;4)用Attention机制和词性向量生成句子向量,进行主分析主成分PCA;5)对上下文矩阵进行Mean Shift聚类,对Top‑K聚类中心进行加权求和后得到上下文向量;6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。本发明实现的词表示方法,融合了词性信息和句子信息,利用了已有的词性标注信息和去噪后的上下文向量,不依赖于特定领域和语料,具有较低的成本和较强的实用性。

技术领域

本发明涉及词向量、深度学习和自然语言处理的技术领域,尤其是指一种基于Mean Shift的融合词性和句子信息的词表示方法。

背景技术

词向量即使用向量对词进行表示,通常被认为是词的特征表示。主流的词表示技术主要分为:基于矩阵的词表示技术、基于聚类的词表示技术和基于神经网络的词表示技术。其中基于神经网络的表示方法以Skip-gram和CROW为代表,其本质思想是:Harris在1954年提出的分布假说——上下文相似的词,其语义也相似。词向量能在一定程度上解决语义鸿沟现象。在自然语言处理领域,词向量作为深度学习的特征输入,其质量直接影响上层深度模型的效果。传统的词表示模型在给定窗口的词共现信息上进行训练,而忽略了句子信息对词向量本身的反作用,导致词表示的信息建模不完整。

传统的自然语言处理技术包括:分词、词性标注、命名实体识别、情感分析和文本分类等。其中的分词和词性标注耗费了巨大的资源进行人工标注,取得了较好的成果。词性,作为词表示的重要组成部分,其极大地影响词的语义,将已有词性标注信息融入词向量能从词性的角度对词表示进行建模。

发明内容

本发明的目的在于克服现有词表示技术的缺点与不足,提出了一种基于MeanShift的融合词性和句子信息的词表示方法,从词性和句子侧面为词向量表示补充额外的信息,从而使得词向量在单词类比和词相似度方面有较大的提高,进一步缓解词语的语义鸿沟现象。

为实现上述目的,本发明所提供的技术方案为:一种基于Mean Shift的融合词性和句子信息的词表示方法,包括以下步骤:

1)对语料进行分词和词性标注;

2)使用skim-gram、CROW方法训练得到字词联合向量;

3)通过使用skim-gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;

4)用Attention机制和词性向量生成句子向量,进行主成分分析PCA;

5)对上下文矩阵进行Mean Shift聚类,对Top-K聚类中心进行加权求和后得到上下文向量;

6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。

在步骤1)中,所述的词性标注包括1998年和2014年人民日报标注语料,采用的词性标注工具有jieba、HanLP和NLPIR。

在步骤2)中,使用skim-gram、CROW方法训练词向量和字向量得到字词联合向量,包括以下步骤:

2.1)进行数据清理,去除步骤1)生成的词序列中的标点符号、特殊字符;

2.2)使用skip-gram或CROW方法分别训练得到词向量wi,字向量ci

2.3)对步骤2.2)生成的字向量和词向量进行加权求和,得到的字词联合向量:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810534989.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top