[发明专利]一种基于Mean Shift的融合词性和句子信息的词表示方法有效
申请号: | 201810534989.2 | 申请日: | 2018-05-30 |
公开(公告)号: | CN108763487B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 邓辉舫;赖港明 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Mean Shift的融合词性和句子信息的词表示方法,包括步骤:1)对语料进行分词和词性标注;2)使用skim‑gram、CROW方法训练得到字词联合向量;3)通过使用skim‑gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;4)用Attention机制和词性向量生成句子向量,进行主分析主成分PCA;5)对上下文矩阵进行Mean Shift聚类,对Top‑K聚类中心进行加权求和后得到上下文向量;6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。本发明实现的词表示方法,融合了词性信息和句子信息,利用了已有的词性标注信息和去噪后的上下文向量,不依赖于特定领域和语料,具有较低的成本和较强的实用性。 | ||
搜索关键词: | 一种 基于 mean shift 融合 词性 句子 信息 词表 方法 | ||
【主权项】:
1.一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于,包括以下步骤:1)对语料进行分词和词性标注;2)使用skim‑gram、CROW方法训练得到字词联合向量;3)通过使用skim‑gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;4)用Attention机制和词性向量生成句子向量,进行主分析主成分PCA;5)对上下文矩阵进行Mean Shift聚类,对Top‑K聚类中心进行加权求和后得到上下文向量;6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810534989.2/,转载请声明来源钻瓜专利网。