[发明专利]口语文本处理方法、装置、服务器及可读存储介质有效
申请号: | 202011537633.8 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112733554B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 雷玉新;樊冬;吴继伟;王乘风;杨华;陈亚婷 | 申请(专利权)人: | 深圳市爱科云通科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30;G06F40/289;G06N20/00 |
代理公司: | 成都极刻智慧知识产权代理事务所(普通合伙) 51310 | 代理人: | 唐维虎 |
地址: | 518000 广东省深圳市前海深港合作区前湾一路鲤鱼门街一号前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 口语 文本 处理 方法 装置 服务器 可读 存储 介质 | ||
1.一种口语文本处理方法,其特征在于,应用于服务器,所述方法包括:
根据预设书面语转换库对初始口语文本进行匹配,并根据匹配结果将所述初始口语文本进行书面语转换,得到第一书面语文本,其中,所述预设书面语转换库包括预设词条库和/或预设规则库;
基于所述第一书面语文本的目标语言翻译文本对所述第一书面语文本进行优化更新,获得第二书面语文本,以基于所述第二书面语文本进行机器翻译操作;
提取初始口语文本与所述第二书面语文本之间的每个差异语段,其中,每个差异语段包括对应于所述初始口语文本的口语差异语段和对应于所述第二书面语文本的书面语差异语段;
根据所述预设书面语转换库对所述差异语段进行比对,当所述差异语段不与所述预设书面语转换库匹配时,将所述差异语段作为书面语转换更新样本更新到所述预设书面语转换库中。
2.根据权利要求1所述的口语文本处理方法,其特征在于,所述根据预设书面语转换库对初始口语文本进行匹配,并根据匹配结果将所述初始口语文本进行书面语转换,得到第一书面语文本的步骤,包括:
对所述初始口语文本进行分词,获得多个文本分词;
将每个所述文本分词与所述预设书面语转换库中的每个书面语元素对应的口语元素进行匹配,当所述文本分词与任意一个书面语元素对应的口语元素匹配时,将所述文本分词转换为对应匹配的书面语元素;
当所有与任意一个书面语元素对应的口语元素匹配的文本分词均转换为对应匹配的书面语元素后,得到第一书面语文本。
3.根据权利要求1所述的口语文本处理方法,其特征在于,所述基于所述第一书面语文本的目标语言翻译文本对所述第一书面语文本进行优化更新,获得第二书面语文本的步骤,包括:
调用预设机器翻译接口将所述第一书面语文本翻译成目标语言,获得目标语言翻译文本;
检测所述目标语言翻译文本与所述初始口语文本之间的语义关联特征的特征差异,并根据所述特征差异对所述第一书面语文本进行纠正,获得纠正书面语文本;
再次调用所述预设机器翻译接口将所述纠正书面语文本翻译成目标语言,返回检测所述目标语言翻译文本与所述初始口语文本之间的语义关联特征的特征差异的步骤,直到所述特征差异小于预设差异后,将当前获得的纠正书面语文本确定为所述第二书面语文本。
4.根据权利要求3所述的口语文本处理方法,其特征在于,所述检测所述目标语言翻译文本与所述初始口语文本之间的语义关联特征的特征差异,并根据所述特征差异对所述第一书面语文本进行纠正,获得纠正书面语文本的步骤,包括:
获取所述目标语言翻译文本与所述初始口语文本之间的语义关联特征集对应的多个语义关联特征向量的词向量编码信息,所述多个语义关联特征向量包括所述语义关联特征集中的每个语义关联特征对应的语义关联特征向量;
基于所述多个语义关联特征向量的词向量编码信息确定离散分布特征,获取所述语义关联特征集中的每个语义关联特征在第一预设语义标签区间内的模型级别特征;
确定与所述每个语义关联特征在第一预设语义标签区间内的模型级别特征对应的模型级别特征分布;
基于特征差异识别模型,根据所述模型级别特征分布和所述离散分布特征,对所述语义关联特征集中语义关联特征进行特征差异分析,得到所述语义关联特征集中语义关联特征间的特征差异;
基于所述语义关联特征集中语义关联特征间的特征差异对所述第一书面语文本进行纠正,获得纠正书面语文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市爱科云通科技有限公司,未经深圳市爱科云通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011537633.8/1.html,转载请声明来源钻瓜专利网。