[发明专利]控制方法、控制程序以及信息处理装置在审
申请号: | 201980098343.7 | 申请日: | 2019-08-01 |
公开(公告)号: | CN114175041A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 片冈正弘;尾上聪;酒井彬 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 宋魏魏 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 控制 方法 控制程序 以及 信息处理 装置 | ||
信息处理装置获取将与单词以及单词的语义的组的出现频率对应的长度的代码与单词以及语义的组建立对应关系的压缩词典。信息处理装置通过压缩词典,获取任意一个单词以及任意一个单词的语义的组、和与任意一个单词以及任意一个单词的语义的组建立对应关系的代码。信息处理装置参照分别将同一长度的多个定长码与单词以及语义的组建立对应关系并存储的存储部,确定多个定长码中与获取的任意一个单词以及任意一个单词的语义的组建立了对应关系的定长码。信息处理装置生成将确定出的定长码与获取的代码建立对应关系的转换词典。信息处理装置基于转换词典,确定与对文本数据进行了编码的压缩数据所包含的各代码建立了对应关系的各定长码。
技术领域
本发明涉及控制方法、控制程序以及信息处理装置。
背景技术
近年来,利用应用了神经网络的翻译技术。具体而言,对输入的文本进行编码,并进行分割为具有意义的单位的单词的词素解析,并使用CBOW(Continuous Bag-of-Words:连续词袋)模型等生成各单词的向量。然后,使用RNN(Recurrent Neural Network:递归神经网络)等神经网络,执行各单词的向量的求和运算,并基于运算结果执行翻译。
专利文献1:日本特开2006-048685号公报
专利文献2:日本特开2018-068752号公报
非专利文献1:Piotr Bojanowski,Edouard Grave,Armand Joulin,and TomasMikolovr,“EnrichingWord Vectors with Subword Information”,arXiv preprintarXiv:1607.04606,2016
非专利文献2:Armand Joulin,Edouard Grave,Piotr Bojanowski,and TomasMikolov,“Bag of Tricks for Efficient Text Classification”,arXiv preprintarXiv:1607.01759,2016
然而,在上述技术中,通过CPU(Central Processing Unit:中央处理器)和GPU(Graphics Processing Unit:图形处理器)分担处理,从而实现高速化,但由于反复执行与复合词、各单词的词形变化对应的向量转换,所以结果而言处理速度降低。
例如,通过由CPU执行到向量生成为止的处理,并由GPU执行获取向量并执行运算的处理,来使处理分担。然而,在对利用ZIP(注册商标)进行了压缩的文本进行解压,并进行了词法解析(词素解析)的文本存在许多复合词、词形变化的情况下,与基本形的单词不同的向量转换多发,所以GPU从CPU获取向量的时间长时间化,而产生处理速度的降低。另一方面,也有对由“cool”等的多义词、“take out”等停用词(Stop word)构成的惯用句的向量分配的最佳化、高速化残留的问题。
发明内容
在一个侧面,目的在于提供能够使向量生成、机械学习的处理速度、精度提高的控制方法、控制程序以及信息处理装置。
在第一方案中,控制方法使计算机执行获取将与单词以及上述单词的语义的组的出现频率对应的长度的代码与上述单词以及上述语义的组建立对应关系的压缩词典的处理。控制方法使计算机执行通过上述压缩词典,获取任意一个单词以及上述任意一个单词的语义的组、和与上述任意一个单词以及上述任意一个单词的语义的组建立对应关系的代码的处理。控制方法使计算机执行参照分别将同一长度的多个定长码与单词以及语义的组建立对应关系并存储的存储部,确定上述多个定长码中与获取的上述任意一个单词以及上述任意一个单词的语义的组建立了对应关系的定长码的处理。控制方法使计算机执行生成将确定出的上述定长码与获取的上述代码建立对应关系的转换词典,并基于上述转换词典,确定与对文本数据进行了编码的压缩数据所包含的各代码建立了对应关系的各定长码的处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980098343.7/2.html,转载请声明来源钻瓜专利网。