[发明专利]通过对话回合间上下文关系来减少辨识错误的装置与方法有效

申请号：	200710087022.6	申请日：	2007-03-14
公开（公告）号：	CN101266793A	公开（公告）日：	2008-09-17
发明（设计）人：	吴旭智;李青宪	申请（专利权）人：	财团法人工业技术研究院
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/18
代理公司：	隆天国际知识产权代理有限公司	代理人：	陈晨
地址：	中国台***	国省代码：	中国台湾;71
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	通过对话回合上下文关系减少辨识错误装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明关于一种通过对话回合(dialogue turn)间上下文(context)关系来减少辨识错误的装置与方法。

背景技术

自动语音辨识(Automatic Speech Recognition，ASR)中，如何减少辨识错误(recognition error)是一个很重要的问题。历来的研究发现，利用更多的信息，作为辨识的参考，可有效地降低辨识错误率。可利用的信息包含语音(speech utterance)信息、语意(speech semantics)信息、还有对话上下文(dialoguecontext)相关信息。

传统语音辨识主要是采取关键词辨识(keyword spotting)。如果关键词的辨识正确，那么便可以正确地继续对话，完成所需的任务。对于传统的信息存取对话系统(例如查询天气、查询人员信息、语音订票等系统)来说，只要能将关键词的辨识率提高，结合其它相关技术(例如不同的对话状态采取不同的子对话系统)，即可实现一个可用的系统。

较新的对话系统中，系统和使用者之间的关系不同于以往的由固定一方问，另一方答，其更复杂的互动，导致单靠关键词辨识的技术无法实现一个可行的对话系统。例如，在一个语言学习系统中，使用者和系统会互相问对方问题，并回答问题，一同完成某一个任务，或达到双方共有的任务。图1是这种对话系统的一个例子。参考图1，使用者(以U表示)和系统(以S表示)进行对话，双方要共同协调出一个时间，还有双方都可以接受的活动来进行。

在该例子中，双方不再设定是一问一答，因此可能出现的辨识错误会如下所示：

“Do you like dancing？”有可能被错误辨识成：“I do like dancing.”；

“Would you like to...？”有可能被错误辨识成：“What do you like to..？”

从上述的例子当中，可以知道仅通过关键词辨识来进行错误辨识，可能无法解决这样的错误。如果可以参考对话上下文的相关信息，那么对于辨识率的提升，会有相当大的帮助。

现今技术中，有利用对话的历史内容，来提高辨识率。例如，RebeccaJonson等人在IEEE SLT 2006所提出的论文“Dialogue Context-basedRe-ranking of ASR Hypotheses”中，其利用语音特征(utterance feature)、实时上下文特征(immediate context feature)、最近上下文特征(close-contextfeature)、对话上下文特征(dialogue context feature)和可能者清单特征(listfeature)等不同方面的特征，作为判定辨识错误的参考。而在实时上下文特征、最近上下文特征中，该论文只考虑了最近的前两次对话回合的对话上下文信息，作为辨识的基础。

另一种参照对话历史内容的作法，则是计算出之前对话的相关统计信息(例如，对话进行中的取消率(cancel percentage)、错误率(error percentage)、系统回合数(number of system turns)、使用者回合数(number of user turns)等概括的信息，没有详细和精确地参照到之前每一回合对话内容的相关信息，也没有精确地描述对话回合之间可能存在的关系

目前的技术大多是根据上一个对话句子(通常是系统所发出的句子)，作为判定目前句子的主要依据。然而，在真实的对话中，目前的句子可能会跟前几个句子相关，而非仅与前一个句子相关。在现有的技术当中，对于这样的情况，尚无有效的表示。例如，现有的例子当中，采用类似N连文法(N-gram)的作法。如果要考虑n＞3的情况，那么其频率的分布会非常稀疏(sparse)。

在语音辨识系统中，利用N-最佳可能者清单(N-Best List)的重新评分方法来提高语音的辨识率，也是一个广泛应用的概念。N-最佳可能者清单的方法中，大多着重于如何利用N-最佳可能者清单信息来测量信心度(confidencemeasure)，与如何在辨识过程中，产生N-最佳可能者清单的方法，以及N-最佳可能者清单如何进行调适性学习(adaptive learning)。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于财团法人工业技术研究院，未经财团法人工业技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710087022.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]通过对话回合间上下文关系来减少辨识错误的装置与方法有效

专利文献下载