[发明专利]语音对话系统、终端装置和数据中心装置有效

申请号：	201310095196.2	申请日：	2013-03-22
公开（公告）号：	CN103366729A	公开（公告）日：	2013-10-23
发明（设计）人：	高桥润	申请（专利权）人：	富士通株式会社
主分类号：	G10L13/00	分类号：	G10L13/00;G10L15/26
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	康建峰;杨华
地址：	日本神***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音对话系统终端装置数据中心
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本文所讨论的实施例涉及将文本转换成语音的语音合成技术。

背景技术

计算机处理技术的发展允许实现这样的语音对话系统：其中，利用将输入的文本转换成朗读语音的语音合成技术和识别人的发音的语音识别技术，来重复在用户与应答系统之间通过语音进行的对话，从而解决问题。随着通信网的发达，可以经过通信网络来利用这种语音对话系统。

图1图示了这种语音对话系统的一例的构造。该语音对话系统是包括在通信网络1上的数据中心2（以下称作“中心2”）上配置的上述应答系统的中心型语音对话系统。

当用户4向着包括在终端3中的话筒等输入装置发声时，终端3将该发声转换成语音数据，并将该语音数据经过通信网络1发送至中心2。中心2使用语音识别技术从接收到的语音数据中识别发声的内容并且执行对话控制，以创建与该发声的内容相应的回答，中心2使用语音合成技术将回答转换成语音数据。此后，终端3经过通信网络1从中心2下载语音数据和显示数据，以按顺序再生该语音数据和显示数据。以这种方式，用户4可以仿佛与他人谈话似地利用该语音对话系统。画面显示5所示的用于显示回答、输入语音、倒回语音、终止语音或使语音快进的语音控制菜单6可以显示在终端3上，以提供基于语音的网页浏览器等功能。

中心型语音对话系统可以从许多人利用的智能手机等便携终端被利用，并且中心型语音对话系统具有这一优点：利用中心2的大量硬件资源的高精度的语音识别和高品质的语音合成是可能的。中心型语音对话系统还具有这一优点：可以使用外部服务和网页信息等通信网络上的信息，以便在中心2处为了创建回答而利用实时信息。

如果中心2以描述画面显示和语音再生的程序的所谓脚本（scenario）的格式来创建回答，则终端3不仅可以再生语音数据，还可以显示文本和图像。

该语音对话系统可以被利用来提供附近的饭店信息和观光信息、以及收听最新的新闻或天气预报等各种服务。

关于语音合成技术，已知这种技术：其中，在全句的语音合成处理结束前，即使是在合成语音的再生的过程中，也可以不使语音停顿而输出合成语音。在该技术中，基于以一个或多个合成单位来分割输入句所获得的每一分割句的音波形数据的生成处理的应答性，并且基于将音波形数据组合起来的合成语音的形成处理的应答性，来计划合成语音的输出。

还已知这种技术：其中，当由谈话句的输入所生成的语音合成数据有一段时间未被输入时，输出准备好的冗词语音数据，并且明显地缩短谈话的无声状态以减轻谈话的对方的紧张。

在语音对话处理中，已知防止多个语音输入和输出处理之间的冲突的技术。在该技术中，如果包括按照低优先级的服务脚本执行的语音输出在内的第二语音处理所需的估计时间短于到按照高优先级的服务脚本执行的第一语音处理的时刻为止的估计空闲时间，则执行第二语音处理。

在语音对话系统中，已知迅速且精确地管理用户与代理之间的对话顺序的技术。在该技术中，利用从用户发出的语音分析的对话信息来生成第一对话顺序信息，并且利用从用户的脸图像分析的表情信息生成第二对话顺序信息。利用该顺序信息、系统的状态信息、用户输入的语音的有无和用户的无应答时间来确定最终的对话顺序。

在将输出了语音的内容配送至终端装置的语音内容配送系统中，已知缩短由已接收到内容的终端输出语音之前的时间的技术。在该技术中，内容配送装置将处在描述朗读字符串（即应作为语音被朗读的字符串）的内容数据中的该朗读字符串替换为作为用于指定输出语音的数据的发音符号串。终端装置基于从由内容配送装置所接收的并且描述发音符号串的内容数据中提取的该发音符号串来输出语音。

发明内容

因而，本实施例的一方面的目的是：不论通信网络的状况怎样，都对对话中的无应答状态的发生提供抑制。

根据本实施例的一方面，语音对话系统包括数据中心装置，所述数据中心装置接收从终端装置发来的说话声的语音数据，对所述语音数据施加语音识别处理，以获取由该语音数据所表达的请求信息，从信息源获取对所述请求信息的回答信息，创建包括所述回答信息的脚本，创建第一合成语音数据，该第一合成语音数据表达发出所述回答信息的声音的合成语音，将在所述创建第一合成语音数据中创建的第一合成语音数据发送至所述终端装置，并且当在所述创建第一合成语音数据中创建所述第一合成语音数据时将所述脚本发送至所述终端装置，

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于富士通株式会社，未经富士通株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310095196.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音对话系统、终端装置和数据中心装置有效

专利文献下载