[发明专利]文本正则化模型训练方法和装置、文本正则化方法和装置有效

申请号：	201710897187.3	申请日：	2017-09-28
公开（公告）号：	CN107705784B	公开（公告）日：	2020-09-29
发明（设计）人：	陈汉英	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G10L13/04	分类号：	G10L13/04;G06N3/08;G06N3/04;G06F40/30;G06F40/279
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请公开了文本正则化模型训练方法和装置、文本正则化方法和装置。该文本正则化模型训练方法的一具体实施方式包括：将输入文本对应的输入字符序列中的字符依次输入待生成的文本正则化模型对应的神经网络中，文本正则化模型对应的神经网络包括编码器和解码器；对输入字符序列中的每个字符，基于解码器中的隐藏层在对输入的上一个字符解码后的状态，采用编码器进行编码，得到字符的中间语义向量，并采用解码器对中间语义向量进行解译，得到字符的预测结果；根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异，对神经网络的参数进行调整。该实施方式实现了文本正则化模型的自动化训练，提升了文本正则化模型的灵活性和准确性。
搜索关键词：	文本正则模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种文本正则化模型训练方法，其特征在于，所述方法包括：将输入文本对应的输入字符序列中的字符依次输入待生成的文本正则化模型对应的神经网络中，所述文本正则化模型对应的神经网络包括编码器和解码器；对所述输入字符序列中的每个字符，基于所述解码器中的隐藏层在对输入的上一个字符解码后的状态，采用所述编码器进行编码，得到所述字符的中间语义向量，并采用所述解码器对所述中间语义向量进行解译，得到所述字符的预测结果；根据所述输入字符序列的预测结果与所述输入文本对应的标注结果之间的差异，对所述神经网络的参数进行调整；其中，所述输入文本对应的输入字符序列是按照如下方式生成的：按照第一预设粒度对所述输入文本进行分割得到第一分割结果；对所述第一分割结果中的非汉字字符进行相应的标签化处理，得到所述输入字符序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度在线网络技术（北京）有限公司，未经百度在线网络技术（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710897187.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文本正则化模型训练方法和装置、文本正则化方法和装置有效

专利文献下载