[发明专利]一种口语转换为书面语的方法和装置有效
申请号: | 201510088855.9 | 申请日: | 2015-02-26 |
公开(公告)号: | CN104731775B | 公开(公告)日: | 2017-11-14 |
发明(设计)人: | 刘伟权;杨立波;李健;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声语音技术有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 刘祥景 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 口语 转换 书面语 方法 装置 | ||
技术领域
本发明涉及智能客服技术领域,特别是涉及一种口语转换为书面语的方法和装置、以及一种翻译模型的训练方法和装置。
背景技术
智能客服系统是一种使用自然语言与用户交互的智能信息系统,它能够识别和理解用户提出的问题,通过语义分析理解用户意图,并以人性化的方式与用户沟通,从而向用户提供信息咨询和相关服务。
现有的智能客服系统是基于书面语进行处理并给出应答的,由于书面语用词规范,智能客服系统的算法对其分析、理解时准确率较高,因此,现有技术的智能客服系统都是针对书面语问题进行理解与处理。
然而,在实际应用中,用户所提出的问题往往为口语化问题,而口语化问题往往存在用词不规范、句法结构不严谨等问题,这样容易会导致智能客服系统的算法对用户的口语化问题理解不准确,进而难以给出正确的应答。
发明内容
本发明实施例所要解决的技术问题是提供一种口语转换为书面语的方法和装置、以及一种翻译模型的训练方法和装置,能够使得智能客服系统准确理解用户提出的口语化问题,从而可以提高智能客服系统应答的准确率。
为了解决上述问题,本发明公开了一种口语转换为书面语的方法,包括:
依据翻译模型中的转换概率参数和对齐概率参数以及语言模型,对经过预处理的口语语句进行搜索解码,得到相应的最优解码结果;其中,所述翻译模型和语言模型为依据包括口语语句和书面语语句的对照语料库训练所得;
将所述口语语句对应的最优解码结果作为书面语语句进行输出。
优选地,所述依据翻译模型中的转换概率参数和对齐概率参数以及语言模型,对经过预处理的口语语句进行搜索解码,得到相应的最优解码结果的步骤,包括:
依据翻译模型中的转换概率参数和对齐概率参数以及语言模型,对所述口语语句包含的所有口语词汇进行启发式搜索解码,生成相应的多个书面语结果假设;
依据启发式函数计算每个书面语结果假设的转换得分,并确定转换得分最高的书面语结果假设为最优解码结果。
优选地,所述启发式函数具体为所述口语语句对所述书面语结果假设的贡献参数与目标书面语词汇的合理性参数的乘积;其中,所述口语语句对所述书面语结果假设的贡献参数为依据所述口语语句到书面语语句的转换概率参数与所述口语语句到书面语语句的对齐概率参数计算得到。
优选地,所述依据启发式函数计算每个书面语结果假设的转换得分,确定转换得分最高的书面语结果假设为最优解码结果的步骤,包括:
将所述多个书面语结果假设存入预设的栈容器中;
从所述栈容器中取出转换得分最高的书面语结果假设;
判断在取出转换得分最高的书面语结果假设时,当前口语词汇是否为最后一个口语词汇,若是,则终止所述启发式搜索解码;若不是,则继续对下一个口语词汇进行启发式搜索解码。
优选地,所述最优解码结果具体为:将所述口语语句以最大概率转换为书面语语句的解码结果。
依据本发明的另一个方面,公开了一种翻译模型的训练方法,包括:
收集对照语料库;所述语料库包括口语语句和书面语语句的对照语料;其中,所述口语语句包括多个口语词汇文本,所述书面语语句包括多个书面语词汇文本;
依据所述对照语料以及所述口语词汇文本和书面语词汇文本之间的对齐关系训练翻译模型,得到翻译模型中的转换概率参数和对齐概率参数、及以转换概率参数和对齐概率参数为自变量的翻译模型。
优选地,所述依据所述对照语料以及所述口语词汇文本和书面语词汇文本之间的对齐关系训练翻译模型,得到翻译模型中的转换概率参数和对齐概率参数、及以转换概率参数和对齐概率参数为自变量的翻译模型的步骤,包括:
初始化所述对照语料中每个口语词汇文本对应书面语词汇文本的转换概率参数和对齐概率参数;
利用最大似然估计算法,依据所述对照语料以及所述口语词汇文本和书面语词汇文本之间的对齐关系对所述转换概率参数和对齐概率参数进行迭代计算,直到所有的转换概率参数和对齐概率参数都收敛为止;
确定以所述收敛的转换概率参数和对齐概率参数为自变量的翻译模型。
优选地,所述利用最大似然估计算法,依据所述对照语料以及所述口语词汇文本和书面语词汇文本之间的对齐关系对所述转换概率参数和对齐概率参数进行迭代计算,直到所有的转换概率参数和对齐概率参数都收敛为止的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声语音技术有限公司,未经北京捷通华声语音技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510088855.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:视觉搜索方法、系统以及移动终端
- 下一篇:天然气管网仿真方法和装置