[发明专利]文字词向量模型的训练方法、装置、终端及存储介质在审

申请号：	202010008508.1	申请日：	2020-01-06
公开（公告）号：	CN110795935A	公开（公告）日：	2020-02-14
发明（设计）人：	胡盼盼;佟博;黄仲强;谢晓婷;严彦昌;杨金辉;余梓玲;胡浩	申请（专利权）人：	广东博智林机器人有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/247;G06F40/126;G06N3/04;G06N3/08
代理公司：	11330 北京市立方律师事务所	代理人：	刘延喜
地址：	528311 广东省佛山市顺德区北滘镇顺江***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请提供了一种文字词向量模型的训练方法、装置、终端及存储介质。所述文字词向量模型的训练方法包括：获取文字样本的文本信息；基于五笔输入法将文本信息的文字拆分成字根，将五笔字根转化为数值序列的形式，并建立五笔字根中各字根与数值的关系词典；根据关系词典将所有字根转化为相应的数值，对字根的数值进行独热编码，得到字根编码；将字根编码输入循环神经网络生成字形编码；对文本信息的各个词语进行词汇独热编码，获取相应的词汇编码；将字形编码和词汇编码输入双向循环神经网络进行模型训练，得到文字词向量模型。本申请利用字形编码和词汇编码训练双向循环神经网络，使文字词向量模型输出的词向量兼具字形信息及语境信息。
搜索关键词：	词向量字根词汇编码神经网络文本信息字形编码双向循环五笔字根字根编码热编码五笔输入法存储介质模型训练输入循环数值序列语境信息字形信息申请转化词语样本词汇终端输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文字词向量模型的训练方法，其特征在于，包括：/n获取文字样本的文本信息；/n基于五笔输入法将所述文本信息的文字拆分成字根，将五笔字根转化为数值序列的形式，并建立五笔字根中各字根与数值的关系词典，根据所述关系词典将所有字根转化为相应的数值，对所述字根的数值进行独热编码，得到字根编码；/n将所述字根编码输入循环神经网络生成字形编码；/n对所述文本信息的各个词语进行词汇独热编码，获取相应的词汇编码；/n将所述字形编码和词汇编码输入双向循环神经网络进行模型训练，得到文字词向量模型。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东博智林机器人有限公司，未经广东博智林机器人有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202010008508.1/，转载请声明来源钻瓜专利网。

上一篇：语句分析模型的训练方法及装置、语句分析方法及装置
下一篇：词向量的获取方法和装置、存储介质及电子装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文字词向量模型的训练方法、装置、终端及存储介质在审

专利文献下载