[发明专利]一种词向量生成、数据处理方法和装置在审
申请号: | 201710476725.1 | 申请日: | 2017-06-21 |
公开(公告)号: | CN109101476A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 谢世鹏 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请实施例提供了一种词向量生成方法和装置,所述方法包括:从数据系统抽取文本,解析文本获得多个词,为各个词创建初始词向量,生成表征文本中所有词构成的全文语义环境的全文词向量,按照各个词与全文词向量以及其他词的词向量之间的关联,对词的词向量进行迭代更新,使得通过定义全文词向量引入全局语义环境,而不是扩展原来的词向量学习窗口来使词向量训练过程受到全局语义的影响。用一个词向量代表全局语义只需在迭代训练过程中多更新一个全局语义变量,就可以在词向量训练过程中,保证最终学习得到的词向量既包含全局语义又包含上下文的局部语义,从而提高了词向量的准确性和鲁棒性,克服了从前词向量学习过程缺失全局语义的问题。 | ||
搜索关键词: | 词向量 语义 全局 方法和装置 训练过程 语义环境 文本 迭代更新 迭代训练 局部语义 数据处理 数据系统 学习过程 语义变量 鲁棒性 解析 抽取 关联 学习 更新 引入 创建 申请 保证 | ||
【主权项】:
1.一种词向量生成方法,其特征在于,包括:从数据系统抽取文本,解析所述文本获得多个词;为各个词创建初始词向量;生成表征所述文本中所有词构成的全文语义环境的全文词向量;按照各个词的词向量与所述全文词向量以及其他词的词向量之间的关联,对所述词的词向量进行迭代更新。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710476725.1/,转载请声明来源钻瓜专利网。