[发明专利]基于人工智能的字向量定义方法、装置、设备及存储介质在审
申请号: | 201910483399.6 | 申请日: | 2019-06-04 |
公开(公告)号: | CN110298035A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 陈闽川;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 词语 多个目标 词向量 分词 人工智能 存储介质 目标文本 目标字 人工智能技术 获取目标 权重策略 最小结构 语句 预置 句子 文本 中文 赋予 | ||
本发明涉及人工智能技术领域,尤其涉及分词模型领域,公开了一种基于人工智能的字向量定义方法、装置、设备及存储介质,用于将单个字作为最小结构,给每个字在不同的词语中赋予多个不同的含义,增加了字向量在句子中含义的准确性。本发明方法包括:获取目标文本,目标文本包括需要进行分词的中文语句;对目标文本进行分词得到多个词语;根据多个词语生成对应的多个目标词向量;根据多个目标词向量和预置的权重策略生成目标字向量,多个目标词向量对应的多个词语中每个词语都包含目标字向量对应的字。
技术领域
本发明涉及分词模型领域,尤其涉及一种基于人工智能的字向量定义方法、装置、设备及存储介质。
背景技术
随着人工智能技术的快速发展,深度学习技术的突飞猛进,为自然语言处理(natural language processing,NLP)提供了强大的工具。其中,深度学习为自然语言处理带来的最令人兴奋的突破是词向量技术和字向量技术。词向量技术是将词转化成为稠密向量,并且对于相似的词,其对应的词向量也相近。在自然语言处理应用中,词向量和字向量作为深度学习模型的特征进行输入。因此,最终模型的效果很大程度上取决于词向量和字向量的效果。
目前在具体实践中,字向量与词向量的定义是相对于独立的,在做实体识别的时候大部分采用字向量,在做文本分类,主题提取的时候大部分采用词向量的方式来进行识别。词向量的缺点是数量庞大而且在实体抽取中,容易出现小词不对而导致大词不对的问题。字向量的缺点在于,单个的词可能会有多完全不相关的意思,比如“老人”中的‘老’和“老子”中的‘老’,他的字向量只能表示一个意思和我们理解的不符合。
现有方案中,对于同一个字,当应用到词中时,单个的词中的字义可能会与词义完全不相关,字向量表意单一。
发明内容
本发明提供了一种基于人工智能的字向量定义方法、装置、设备及存储介质,用于将单个字作为最小结构,考虑字向量和词向量的结合,给每个字在不同的词语中赋予多个不同的含义,增加了字向量在句子中含义的准确性。
本发明实施例的第一方面提供一种基于人工智能的字向量定义方法,包括:获取目标文本,所述目标文本包括需要进行分词的中文语句;对所述目标文本进行分词得到多个词语;根据所述多个词语生成对应的多个目标词向量;根据所述多个目标词向量和预置的权重策略生成目标字向量,所述多个目标词向量对应的多个词语中每个词语都包含所述目标字向量对应的字;将每个目标字向量作为模型参数输入到长短时记忆网络LSTM和条件随机场CRF模型中,对所述中文语句进行实体识别生成预测分词。
可选的,在本发明实施例第一方面的第一种实现方式中,所述根据所述多个词语生成对应的多个目标词向量包括:将所述多个词语输入到预置的算法模型中;将每个词语映射成K维词语向量,其中,K为大于0的整数;计算得到每个词语向量之间的距离;根据所述每个词语向量之间的距离确定每个词语向量之间的语义相似度;根据所述每个词语向量之间的语义相似度确定与所述多个词语中目标词语的语义相似度最高的向量为目标词向量;确定多个目标词向量,每个目标词向量对应一个词语。
可选的,在本发明实施例第一方面的第二种实现方式中,在所述将所述多个词语输入到预置的算法模型中之前,所述方法还包括:随机生成一个词向量矩阵,每一个行对应一个单词的向量;在所述词向量矩阵确定一个目标单词,并从所述词向量矩阵中提取周边单词的词向量;计算所述周边单词的词向量的均值向量;将所述均值向量输入到预置的逻辑回归模型中进行训练;生成预置的算法模型,所述预置的算法模型输出的概率向量与所述目标单词的one-hot编码向量相匹配。
可选的,在本发明实施例第一方面的第三种实现方式中,所述计算得到每个词语向量之间的距离包括:在所述词语向量中确定第一向量和第二向量;计算所述第一向量和所述第二向量之间的余弦值,满足公式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910483399.6/2.html,转载请声明来源钻瓜专利网。