[发明专利]字母向量计算方法、系统、存储介质及电子设备在审
申请号: | 202110942877.2 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113743053A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 梁吉光;黄艳香 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/242;G06F40/30 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 梁春艳 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字母 向量 计算方法 系统 存储 介质 电子设备 | ||
本申请公开了一种字母向量计算方法、系统、存储介质及电子设备,方法包括:获取字典步骤:提取预训练中文字向量模型中的汉字并形成字典;获取二元组步骤:遍历所述字典中的汉字,获取所述汉字中的尖团字,并将所述汉字的拼音拆分构成字母串;还原步骤:将所述汉字的拼音还原为尖团音并拆分为字母字符串;计算步骤:计算还原尖团音之后的汉语拼音字符串中每个汉语拼音在所述汉字中所分得的向量;获取字母向量步骤:根据还原尖团音之后的所述汉语拼音字符串中每个所述汉语拼音字母在所述汉字中所分得的所述向量,计算获取汉字拼音字母向量。本发明丰富了只基于字或词粒度的向量表示。
技术领域
本发明属于字母向量计算领域,具体涉及一种字母向量计算方法、系统、存储介质及电子设备。
背景技术
近年来,词嵌入(wordembedding)在自然语言处理领域多项任务中取得了瞩目的成绩,也吸引了众多研究人员的关注。在中文词嵌入中,研究人员大多只关注字和词维度的embedding,而对汉语拼音字母的关注比较少。汉语拼音是对汉字读音的注解,也是一种汉字语义的体现。
现有技术中词嵌入基于字或词做embedding,很少考虑读音,更没有融合尖团音做汉语拼音字母embedding的相关研究了。
发明内容
本申请实施例提供了一种字母向量计算方法、系统、存储介质及电子设备,以至少解决现有的字母向量计算方法没有融合尖团音做汉语拼音字母embedding的相关研究的问题。
本发明提供了一种字母向量计算方法,其中,包括:
获取字典步骤:提取预训练中文字向量模型中的汉字并形成字典;
获取二元组步骤:遍历所述字典中的汉字,获取所述汉字中的尖团字,并将所述汉字的拼音拆分构成字母串,根据所述汉字和所述字母串构建二元组;
还原步骤:将所述汉字的拼音还原为尖团音并拆分为字母字符串;
计算步骤:根据所述汉字与所述汉字对应的还原尖团音之后的所述字母字符串,计算还原尖团音之后的汉语拼音字符串中每个汉语拼音在所述汉字中所分得的向量;
获取字母向量步骤:根据还原尖团音之后的所述汉语拼音字符串中每个所述汉语拼音字母在所述汉字中所分得的所述向量,计算获取汉字拼音字母向量。
上述字母向量计算方法,其中,所述获取字典步骤包括:
模型获取步骤:获取预训练中文字向量模型,所述预训练中文字向量模型为N维向量字向量模型;
提取步骤:提取所述N维向量字向量模型中的汉字形成字典。
上述字母向量计算方法,其中,所述计算步骤包括:
倒排步骤:根据所述汉字与所述汉字对应的还原尖团音之后的汉语拼音构成的所述字母串,对所述汉字和所述字母串进行倒排;
向量计算步骤:根据所述汉字与所述汉字对应的还原尖团音之后的所述字母字符串、倒排结果以及向量计算公式计算所述字符串中每个汉语拼音字母的在所述汉字中所分得的向量。
上述字母向量计算方法,其中,所述获取二元组步骤包括:
如果所述汉字是多音字则所述汉字可以拆分为多个由汉语拼音字母构成的所述字母串。
本发明还提供了一种字母向量计算系统,其中,包括:
获取字典模块,所述获取字典模块提取预训练中文字向量模型中的汉字并形成字典;
获取二元组模块,所述获取二元组模块遍历所述字典中的汉字,获取所述汉字中的尖团字,并将所述汉字的拼音拆分构成字母串,根据所述汉字和所述字母串构建二元组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110942877.2/2.html,转载请声明来源钻瓜专利网。