[发明专利]一种语义特征处理方法、装置及存储介质在审
申请号: | 202110458796.5 | 申请日: | 2021-04-27 |
公开(公告)号: | CN113177414A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 蔡晓东;郑淑婷 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 厉洋洋 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 特征 处理 方法 装置 存储 介质 | ||
本发明涉及一种语义特征处理方法、装置及存储介质,方法包括:导入待处理语句;分别以待处理语句中多个单词为处理对象,对各个单词进行词级向量化表示,得到与各个单词对应的词级嵌入向量;分别以待处理语句中多个单词为处理对象,提取各个单词的子词级特征,得到与各个单词对应的子词级向量;分别将同一单词对应的词级嵌入向量和所述子词级向量作为门控动态选择机制的输入,通过门控动态选择机制得到同一单词对应的单词语义特征。本发明能够将待处理语句以词级和子词级,即词与字符之间共同处理,得到词级嵌入向量和子词级向量,能够较好的处理平衡低频向量和未登录词,一并作为门控动态选择机制输入,提高了语义特征的准确性。
技术领域
本发明涉及语音数据处理领域,具体涉及一种语义特征处理方法、装置及存储介质。
背景技术
由于词语和句法结构的多样性,词语即词级无法准确表示低频向量和未登录词的语义使得语义特征表示任务成为重要的挑战,未登录词是指文本词汇库中没有出现的词。以往的embedding等方法存在由于词向量特征表示稀疏而造成的“维数灾难”问题,对于远距离的依赖难以学到,导致得到的语义特征不准确。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种语义特征处理方法、装置及存储介质。
本发明解决上述技术问题的技术方案如下:一种语义特征处理方法,包括如下步骤:
导入待处理语句,所述待处理语句包括多个单词,所述单词为英文单词;
分别以所述待处理语句中多个单词为处理对象,对各个单词进行词级向量化表示,得到与各个单词对应的词级嵌入向量;
分别以所述待处理语句中多个单词为处理对象,提取各个单词的子词级特征,得到与各个单词对应的子词级向量;
分别将同一单词对应的所述词级嵌入向量和所述子词级向量作为门控动态选择机制的输入,通过所述门控动态选择机制得到同一单词对应的单词语义特征。
本发明解决上述技术问题的另一技术方案如下:一种语义特征处理系统,包括:
导入模块,用于导入待处理语句,所述待处理语句包括多个单词,所述单词为英文单词;
处理模块,用于分别以所述待处理语句中多个单词为处理对象,对各个单词进行词级向量化表示,得到与各个单词对应的词级嵌入向量;
分别以所述待处理语句中多个单词为处理对象,提取各个单词的子词级特征,得到与各个单词对应的子词级向量;
输出模块,用于分别将同一单词对应的所述词级嵌入向量和所述子词级向量作为门控动态选择机制的输入,通过所述门控动态选择机制得到同一单词对应的单词语义特征。
本发明解决上述技术问题的另一技术方案如下:一种语义特征处理系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的语义特征处理方法。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的语义特征处理方法。
本发明的有益效果是:本发明将语句划分为词级和子词级形式,能够将待处理语句以词级和子词级即词语与子词之间共同处理,由于子词级的粒度在词语与字符之间,解决了词向量特征表示所带来的数据稀疏问题,通过子词级向量能够较好的处理低频向量和未登录词的语义,将词级嵌入向量和子词级向量一并作为门控动态选择机制输入,提高了语义特征的准确性。
附图说明
图1为本发明实施例提供的语义特征处理方法的流程图;
图2为本发明实施例提供的数据流向示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110458796.5/2.html,转载请声明来源钻瓜专利网。