[发明专利]基于人工智能的字向量定义方法、装置、设备及存储介质在审
申请号: | 201910483399.6 | 申请日: | 2019-06-04 |
公开(公告)号: | CN110298035A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 陈闽川;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 词语 多个目标 词向量 分词 人工智能 存储介质 目标文本 目标字 人工智能技术 获取目标 权重策略 最小结构 语句 预置 句子 文本 中文 赋予 | ||
1.一种基于人工智能的字向量定义方法,其特征在于,包括:
获取目标文本,所述目标文本包括需要进行分词的中文语句;
对所述目标文本进行分词得到多个词语;
根据所述多个词语生成对应的多个目标词向量;
根据所述多个目标词向量和预置的权重策略生成目标字向量,所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字。
2.根据权利要求1所述的基于人工智能的字向量定义方法,其特征在于,所述根据所述多个词语生成对应的多个目标词向量包括:
将所述多个词语输入到预置的算法模型中;
将每个词语映射成K维词语向量,其中,K为大于0的整数;
计算得到每个词语向量之间的距离;
根据所述每个词语向量之间的距离确定每个词语向量之间的语义相似度;
根据所述每个词语向量之间的语义相似度确定与所述多个词语中目标词语的语义相似度最高的向量为目标词向量;
确定多个目标词向量,每个目标词向量对应一个词语。
3.根据权利要求2所述的基于人工智能的字向量定义方法,其特征在于,在所述将所述多个词语输入到预置的算法模型中之前,所述方法还包括:
随机生成一个词向量矩阵,每一个行对应一个单词的向量;
在所述词向量矩阵确定一个目标单词,并从所述词向量矩阵中提取周边单词的词向量;
计算所述周边单词的词向量的均值向量;
将所述均值向量输入到预置的逻辑回归模型中进行训练;
生成预置的算法模型,所述预置的算法模型输出的概率向量与所述目标单词的one-hot编码向量相匹配。
4.根据权利要求2所述的基于人工智能的字向量定义方法,其特征在于,所述计算得到每个词语向量之间的距离包括:
在所述词语向量中确定第一向量和第二向量;
计算所述第一向量和所述第二向量之间的余弦值,满足公式:
其中,D1、D2分别表示第一向量和第二向量,W1k表示第一向量的权重,W2k表示第二向量的权重,第一向量和第二向量都包括N个特征值,1≤k≤N;
将所述余弦值确定为所述第一向量和所述第二向量的距离。
5.根据权利要求1所述的基于人工智能的字向量定义方法,其特征在于,所述根据所述多个目标词向量和预置的权重策略生成目标字向量,所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字包括:
获取预置的权重策略,所述预置的权重策略包含每个词向量的权重值;
确定所述多个目标词向量中每个词向量的目标权重值;
根据所述多个目标词向量和所述多个目标词向量中各个目标权重值生成目标字向量。
6.根据权利要求1-5中任一所述的基于人工智能的字向量定义方法,其特征在于,所述根据所述多个目标词向量和预置的权重策略生成目标字向量,所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字之后,所述方法还包括:
将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中,对所述中文语句进行实体识别生成预测分词。
7.根据权利要求6所述的基于人工智能的字向量定义方法,其特征在于,所述将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中,对所述中文语句进行实体识别生成预测分词包括:
将每个目标字向量作为模型参数输入到LSTM和CRF模型中;
确定每个目标字向量在字空间中的位置;
根据所述每个目标字向量在字空间中的位置对所述中文语句进行实体识别,生成预测分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910483399.6/1.html,转载请声明来源钻瓜专利网。