[发明专利]一种拼音标注方法及装置在审
申请号: | 202110013709.5 | 申请日: | 2021-01-06 |
公开(公告)号: | CN112686041A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 杨明祺;马楠;高强;蒋荣正;夏龙;郭常圳 | 申请(专利权)人: | 北京猿力未来科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
地址: | 100102 北京市朝阳区广顺南大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 拼音 标注 方法 装置 | ||
本申请提供一种拼音标注方法及装置,其中所述拼音标注方法包括:对待处理文本进行分词处理生成多个词单元集合,所述待处理文本中包含至少一个多音字,根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注,生成所述多个词单元集合分别对应的初始拼音序列,对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列,并基于所述中间拼音序列生成所述待处理文本对应的语音数据,提取所述语音数据的第一音频特征,基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测,并根据预测结果确定所述至少一个多音字的拼音标注结果。
技术领域
本申请涉及文本处理技术领域,特别涉及一种拼音标注方法及装置、计算设备和计算机可读存储介质。
背景技术
随着互联网技术的发展,更多的应用场景对数据的数量和质量要求变得越来越高,并且不同的场景所使用数据也是不同的,在机器学习领域中,不同的使用需求将构建不同的模型,而不同的模型也需要使用不同的样本数据进行训练,如图像处理场景,就需要使用图像数据训练该场景中应用的模型;如音频处理场景,就需要使用音频数据训练该场景中应用的模型;如文本处理场景,就需要使用文本数据训练该场景中应用的模型等;而为了能够训练出满足使用需求的模型,需要在数据准备阶段对样本数据进行预处理,如打标,构建样本对等等,都是满足模型训练需求的准备操作,该过程直接影响着训练出的模型的精准度,现有技术在对样本数据进行打标时,都是通过人工标注的方式实现,不仅效率低下,而且人工标注的方式无法保证准度率,进而容易在训练模型时造成误差,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种拼音标注方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种拼音标注方法,包括:
对待处理文本进行分词处理生成多个词单元集合,所述待处理文本中包含至少一个多音字;
根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注,生成所述多个词单元集合分别对应的初始拼音序列;
对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列,并基于所述中间拼音序列生成所述待处理文本对应的语音数据;
提取所述语音数据的第一音频特征,基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测,并根据预测结果确定所述至少一个多音字的拼音标注结果。
可选地,所述对待处理文本进行分词处理生成多个词单元集合,包括:
通过匹配算法对所述待处理文本进行分词处理,生成多个词单元集合。
可选地,所述对待处理文本进行分词处理生成多个词单元集合,包括:
通过负向最大匹配算法对所述待处理文本进行分词处理,生成多个词单元集合。
可选地,所述对待处理文本进行分词处理生成多个词单元集合,包括:
查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元,其中,i从1开始取值且i为正整数;
若否,则将所述第i个词单元作为一个词单元集合;
i自增1,并返回执行所述查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元的步骤。
可选地,若所述查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元的运行结果为是,则所述对待处理文本进行分词处理生成多个词单元集合,还包括:
查询所述拼音词表中是否包含由第i至第i+n个词单元组成的词组,其中,n从1开始取值,且n为正整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京猿力未来科技有限公司,未经北京猿力未来科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110013709.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:定时熄火保护燃气阀构造
- 下一篇:一种诱虫组合物、其制备方法及应用