[发明专利]一种基于Mean Shift的融合词性和句子信息的词表示方法有效

申请号：	201810534989.2	申请日：	2018-05-30
公开（公告）号：	CN108763487B	公开（公告）日：	2021-08-10
发明（设计）人：	邓辉舫;赖港明	申请（专利权）人：	华南理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/30;G06K9/62
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	冯炳辉
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 mean shift 融合词性句子信息词表方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于Mean Shift的融合词性和句子信息的词表示方法，包括步骤：1)对语料进行分词和词性标注；2)使用skim‑gram、CROW方法训练得到字词联合向量；3)通过使用skim‑gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量；4)用Attention机制和词性向量生成句子向量，进行主分析主成分PCA；5)对上下文矩阵进行Mean Shift聚类，对Top‑K聚类中心进行加权求和后得到上下文向量；6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。本发明实现的词表示方法，融合了词性信息和句子信息，利用了已有的词性标注信息和去噪后的上下文向量，不依赖于特定领域和语料，具有较低的成本和较强的实用性。

技术领域

本发明涉及词向量、深度学习和自然语言处理的技术领域，尤其是指一种基于Mean Shift的融合词性和句子信息的词表示方法。

背景技术

词向量即使用向量对词进行表示，通常被认为是词的特征表示。主流的词表示技术主要分为：基于矩阵的词表示技术、基于聚类的词表示技术和基于神经网络的词表示技术。其中基于神经网络的表示方法以Skip-gram和CROW为代表，其本质思想是：Harris在1954年提出的分布假说——上下文相似的词，其语义也相似。词向量能在一定程度上解决语义鸿沟现象。在自然语言处理领域，词向量作为深度学习的特征输入，其质量直接影响上层深度模型的效果。传统的词表示模型在给定窗口的词共现信息上进行训练，而忽略了句子信息对词向量本身的反作用，导致词表示的信息建模不完整。

传统的自然语言处理技术包括：分词、词性标注、命名实体识别、情感分析和文本分类等。其中的分词和词性标注耗费了巨大的资源进行人工标注，取得了较好的成果。词性，作为词表示的重要组成部分，其极大地影响词的语义，将已有词性标注信息融入词向量能从词性的角度对词表示进行建模。

发明内容

本发明的目的在于克服现有词表示技术的缺点与不足，提出了一种基于MeanShift的融合词性和句子信息的词表示方法，从词性和句子侧面为词向量表示补充额外的信息，从而使得词向量在单词类比和词相似度方面有较大的提高，进一步缓解词语的语义鸿沟现象。

为实现上述目的，本发明所提供的技术方案为：一种基于Mean Shift的融合词性和句子信息的词表示方法，包括以下步骤：

1)对语料进行分词和词性标注；

2)使用skim-gram、CROW方法训练得到字词联合向量；

3)通过使用skim-gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量；

4)用Attention机制和词性向量生成句子向量，进行主成分分析PCA；

5)对上下文矩阵进行Mean Shift聚类，对Top-K聚类中心进行加权求和后得到上下文向量；

6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。

在步骤1)中，所述的词性标注包括1998年和2014年人民日报标注语料，采用的词性标注工具有jieba、HanLP和NLPIR。

在步骤2)中，使用skim-gram、CROW方法训练词向量和字向量得到字词联合向量，包括以下步骤：