[发明专利]一种基于Mean Shift的融合词性和句子信息的词表示方法有效
申请号: | 201810534989.2 | 申请日: | 2018-05-30 |
公开(公告)号: | CN108763487B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 邓辉舫;赖港明 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mean shift 融合 词性 句子 信息 词表 方法 | ||
本发明公开了一种基于Mean Shift的融合词性和句子信息的词表示方法,包括步骤:1)对语料进行分词和词性标注;2)使用skim‑gram、CROW方法训练得到字词联合向量;3)通过使用skim‑gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;4)用Attention机制和词性向量生成句子向量,进行主分析主成分PCA;5)对上下文矩阵进行Mean Shift聚类,对Top‑K聚类中心进行加权求和后得到上下文向量;6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。本发明实现的词表示方法,融合了词性信息和句子信息,利用了已有的词性标注信息和去噪后的上下文向量,不依赖于特定领域和语料,具有较低的成本和较强的实用性。
技术领域
本发明涉及词向量、深度学习和自然语言处理的技术领域,尤其是指一种基于Mean Shift的融合词性和句子信息的词表示方法。
背景技术
词向量即使用向量对词进行表示,通常被认为是词的特征表示。主流的词表示技术主要分为:基于矩阵的词表示技术、基于聚类的词表示技术和基于神经网络的词表示技术。其中基于神经网络的表示方法以Skip-gram和CROW为代表,其本质思想是:Harris在1954年提出的分布假说——上下文相似的词,其语义也相似。词向量能在一定程度上解决语义鸿沟现象。在自然语言处理领域,词向量作为深度学习的特征输入,其质量直接影响上层深度模型的效果。传统的词表示模型在给定窗口的词共现信息上进行训练,而忽略了句子信息对词向量本身的反作用,导致词表示的信息建模不完整。
传统的自然语言处理技术包括:分词、词性标注、命名实体识别、情感分析和文本分类等。其中的分词和词性标注耗费了巨大的资源进行人工标注,取得了较好的成果。词性,作为词表示的重要组成部分,其极大地影响词的语义,将已有词性标注信息融入词向量能从词性的角度对词表示进行建模。
发明内容
本发明的目的在于克服现有词表示技术的缺点与不足,提出了一种基于MeanShift的融合词性和句子信息的词表示方法,从词性和句子侧面为词向量表示补充额外的信息,从而使得词向量在单词类比和词相似度方面有较大的提高,进一步缓解词语的语义鸿沟现象。
为实现上述目的,本发明所提供的技术方案为:一种基于Mean Shift的融合词性和句子信息的词表示方法,包括以下步骤:
1)对语料进行分词和词性标注;
2)使用skim-gram、CROW方法训练得到字词联合向量;
3)通过使用skim-gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;
4)用Attention机制和词性向量生成句子向量,进行主成分分析PCA;
5)对上下文矩阵进行Mean Shift聚类,对Top-K聚类中心进行加权求和后得到上下文向量;
6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。
在步骤1)中,所述的词性标注包括1998年和2014年人民日报标注语料,采用的词性标注工具有jieba、HanLP和NLPIR。
在步骤2)中,使用skim-gram、CROW方法训练词向量和字向量得到字词联合向量,包括以下步骤:
2.1)进行数据清理,去除步骤1)生成的词序列中的标点符号、特殊字符;
2.2)使用skip-gram或CROW方法分别训练得到词向量wi,字向量ci;
2.3)对步骤2.2)生成的字向量和词向量进行加权求和,得到的字词联合向量:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810534989.2/2.html,转载请声明来源钻瓜专利网。