[发明专利]特定领域的词向量增量方法、装置及存储介质有效
申请号: | 202010950721.4 | 申请日: | 2020-09-11 |
公开(公告)号: | CN111814473B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 陈庆伟 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;张娓娓 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特定 领域 向量 增量 方法 装置 存储 介质 | ||
本发明涉及数据处理技术领域,提供一种特定领域的词向量增量方法、装置及计算机可读存储介质,包括:收集特定领域的语料;将特定领域的语料与特定领域的预设词向量对照表比对,得到特定领域的词向量空间;根据预设词向量空间融合规则,将特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为特定领域增量后的词向量。本发明能够解决现有技术中由于通用词向量太过于庞大,在此基础上继续训练需要庞大的内存等硬件资源,适用性较低;且由于通用词向量庞大,训练过程不稳定,难以达到理想效果等问题。
技术领域
本发明属于数据处理技术领域,尤其涉及一种特定领域的词向量增量方法、装置及计算机可读存储介质。
背景技术
词向量(Word embedding)是自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其是来自词汇表的单词或短语被映射到实数的向量。词向量是人类语言到计算机语言的重要桥梁,在自然语言处理领域起着至关重要的作用。
词向量的训练需要庞大的语料及训练资源。在实际使用过程中,往往都是在某个特定领域,如法律、医疗,其语料具有针对性,若扩充特定领域的词向量,目前的方法是,通用词向量与特定领域的语料共同进行增量训练,如Gensim包中将通用词向量读入再用领域语料进行增量训练,在这个过程中,通用词向量需要再优化,通用词向量可以通过现有的语料包得到,例如腾讯AI Lab,是一个通过巨大的中文语料训练出一个超过800万的通用语料词向量矩阵。
现有的方法由于通用词向量太过于庞大,在此基础上继续训练将需要庞大的内存等硬件资源,适用性较低;且由于通用词向量庞大,训练过程不稳定,很难达到理想效果。
发明内容
基于上述现有技术中存在的问题,本发明提供一种特定领域的词向量增量方法、装置及计算机可读存储介质,其主要目的在于,通过将通用语料词向量空间与特定领域内的词向量空间进行空间融合,得到融合的词向量空间,从而达到特定领域的词向量增量的目的,能够解决现有技术中,由于通用词向量太过于庞大,在此基础上继续训练需要庞大的内存等硬件资源,适用性较低;且由于通用词向量庞大,训练过程不稳定,难以达到理想效果等问题。
第一方面,为实现上述目的,本发明提供一种特定领域的词向量增量方法,该方法包括:
收集特定领域的语料;
将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间;
根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为所述特定领域增量后的词向量。
第二方面,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中存储有特定领域的词向量增量程序,所述特定领域的词向量增量程序被所述处理器执行时实现如下步骤:
收集特定领域的语料;
将所述特定领域的语料与所述特定领域的预设词向量对照表比对,得到所述特定领域的词向量空间;
根据预设词向量空间融合规则,将所述特定领域的词向量空间与预先获取的通用语料词向量空间进行融合处理,将得到的融合的词向量空间中的词向量作为所述特定领域增量后的词向量。
第三方面,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有特定领域的词向量增量程序,所述特定领域的词向量增量程序被处理器执行时,实现如上所述的特定领域的词向量增量方法中的任意步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010950721.4/2.html,转载请声明来源钻瓜专利网。