[发明专利]一种识别数字串读法的方法及装置有效
申请号: | 201911240124.6 | 申请日: | 2019-12-04 |
公开(公告)号: | CN111026844B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 张浩静;王大亮;齐红威;何鸿凌 | 申请(专利权)人: | 河北数云堂智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 071000 河北省保定市莲池区七*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 字串 读法 方法 装置 | ||
本发明公开了一种识别数字串读法的方法及装置,包括:通过预先训练的表征特征挖掘方法挖掘待识别的数据的表征特征,并基于提取到的表征特征确定数字串的读法;在待识别的数据中包含未识别出数字串读法的第一数据时,基于预先训练的浅层语法特征挖掘方法提取第一数据中与数字串相关的第二文本数据的浅层语法特征,并基于第二文本数据的浅层语法特征,确定第一数据中数字串的读法;若待识别的数据中仍包含未识别出数字串读法的第二数据时,提取所述第二数据中与数字串相关的第三文本数据的抽象特征,并基于提取到的抽象特征,确定所述第二数据中数字串的读法。这样,实现了自动高效的识别数字串读法的目的。
技术领域
本发明涉及数据处理领域,尤其涉及一种识别数字串读法的方法及装置。
背景技术
语音的合成过程中包括对文本-语音的转换,以及数字-语音的转换,其中,对于数字-语音的转换,由于不同的领域或者不同的场景下,相同的数字串具有不同的读法,例如15年潮起潮落,邬学强当过刺绣工,也开过出租车,还跑过市场营销;作为以前的神车,15年是最后一款了,很值得入手。两个句子中第一个读十五,第二个读一五,那么,需要选用合适的读法才能保证数字-语音转换的准确度。
现有技术中,针对不同的语境设置了不同的数字串读法,例如包括:序数读法、普通电报读法、军用电报读法等。但是,在实际应用中,高效自动的识别数字串读法的方法是亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种识别数字串读法的方法及装置,实现了高效自动的识别数字串读法的目的。本发明实施例提供了一种识别数字串读法的方法,包括:
获取待识别的数据;所述待识别的数据包括数字串和文本;
调用预先训练的表征特征挖掘方法,从所述待识别的数据中提取与所述数字串相关联的第一文本数据的表征特征,并基于所述第一文本数据的表征特征,确定数字串的读法;
若所述待识别的数据中包含未识别出数字串读法的第一数据,基于预先训练的浅层语法特征挖掘方法提取所述第一数据中与数字串相关的第二文本数据的浅层语法特征,并基于所述第二文本数据的浅层语法特征,确定所述第一数据中数字串的读法;
若所述待识别的数据中仍然包含未识别出数字串读法的第二数据,提取所述第二数据中与数字串相关的第三文本数据的抽象特征,并基于提取到的抽象特征,确定所述第二数据中数字串的读法。
可选的,所述表征特征挖掘方法的训练过程包括:
获取标记有数字串读法的第一训练样本集;所述第一训练样本集中包含文本和数字串;
基于预设的第一支持度和第一置信度,确定出所述第一训练样本集中词组的频繁项集;
生成与所述词组频繁项集具有关联性的规则,得到表征特征挖掘方法。
可选的,所述基于所述文本数据的表征特征,确定数字串的读法,包括:
将所述第一文本数据的表征特征输入到预先训练的第一决策树中,得到与所述数据串的表征特征相对应的读法;所述第一决策树表示第表征特征与读法的映射关系。
可选的,所述浅层语法特征挖掘方法的训练过程包括:
获取标记有数字串读法的第二训练样本集;所述第二训练样本集中包含文本和数字串;
对所述第二训练样本集中与数字串相邻的文本进行分词,并对分词结果的浅层语法特征进行标注;
基于预设的第二支持度和预设的第二置信度,确定所述第二训练样本集中浅层语法特征的频繁项集;
生成与所述浅层语法特征的频繁项集具有关联性的规则,得到浅层语法特征的挖掘方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北数云堂智能科技有限公司,未经河北数云堂智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911240124.6/2.html,转载请声明来源钻瓜专利网。