[发明专利]多音字发音标注方法、装置、设备及存储介质有效
申请号: | 202110550710.1 | 申请日: | 2021-05-18 |
公开(公告)号: | CN113268974B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 李俊杰;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/221;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多音字 发音 标注 方法 装置 设备 存储 介质 | ||
1.一种多音字发音标注方法,其特征在于,所述多音字发音标注方法包括:
采集待标注原始语料数据,并对所述待标注原始语料数据进行数据清洗,得到目标语料数据,其中,所述目标语料数据包含中文句子,所述中文句子包括目标多音字;
将所述目标语料数据输入预置Bert预训练模型进行特征向量提取,对待处理目标语料数据的字进行特征向量转换,得到字特征表示向量集,并提取字特征表示向量集中目标多音字对应的表示向量,得到多音字特征表示向量,其中,目标多音字的数量包括一个或一个以上;
对所述目标语料数据进行分词处理得到目标分词,并对所述目标分词进行语义识别处理,得到所述目标语料数据中所有中文句子对应的语义信息,其中,所述目标分词的数量均包括一个或一个以上,并根据每一个目标分词,得到目标语料数据的语义信息;
调用词嵌入算法对所述语义信息进行向量化处理,得到所述语义信息的语义信息向量;
对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理,计算所述多音字特征表示向量的多音字注意力值,根据所述多音字注意力值得到词向量矩阵,并将多音字向量矩阵与所述词向量矩阵进行矩阵相加或矩阵相乘,得到注意力机制的目标表示向量;
将所述目标表示向量输入预置多音字预测模型,通过所述多音字预测模型的线性层和softmax层,计算所述目标表示向量的目标发音概率,确定所述目标多音字的目标发音,对所述多音字发音进行标注。
2.根据权利要求1所述的多音字发音标注方法,其特征在于,所述对所述待标注原始语料数据进行数据清洗,得到目标语料数据包括:
采集待标注原始语料数据;
获取所述待标注原始语料数据的清洗需求;
根据所述待标注原始语料数据和所述清洗需求,确定用于对所述待标注原始语料数据进行数据清洗的目标清洗规则;
根据所述目标清洗规则对所述待标注原始语料数据进行数据清洗,得到目标语料数据。
3.根据权利要求1所述的多音字发音标注方法,其特征在于,所述将所述目标语料数据输入预置Bert预训练模型进行特征向量提取,得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量包括:
获取所述目标语料数据中的中文句子,其中,所述中文句子中的目标多音字和所述目标多音字对应位置信息;
根据所述目标多音字对应位置信息,对所述中文句子中的目标多音字进行标注,得到待处理中文句子;
将所述待处理中文句子输入预置Bert预训练模型进行字特征向量提取和多音字特征向量提取,得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量。
4.根据权利要求1所述的多音字发音标注方法,其特征在于,所述对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理,得到注意力机制的目标表示向量包括:
通过预置的前馈注意力机制,对所述多音字特征表示向量和所述语义信息向量进行注意力计算,得到注意力向量;
将所述注意力向量与所述多音字特征表示向量进行拼接,得到目标表示向量。
5.根据权利要求4所述的多音字发音标注方法,其特征在于,所述通过预置的前馈注意力机制,对所述多音字特征表示向量和所述语义信息向量进行注意力计算,得到注意力向量包括:
通过预置的前馈注意力机制,将所述语义信息向量与所述多音字特征表示向量拼接后输入预置Double-LSTMs神经网络模型进行特征提取,得到更加准确的隐层表示向量;
将所述Double-LSTMs神经网络增加一层注意力层,确定所述中文句子中相对重要的信息赋予更高的权重;
基于注意力层获得的权重,将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量,并分别将正向编码所获得的隐层向量与反向编码所获得的隐层向量进行拼接,并对所述多音字特征表示向量和所述语义信息向量进行注意力计算,得到注意力向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110550710.1/1.html,转载请声明来源钻瓜专利网。