[发明专利]基于语音的问答系统和用于交互式语音系统的方法在审
申请号: | 201310390944.X | 申请日: | 2013-09-02 |
公开(公告)号: | CN104424290A | 公开(公告)日: | 2015-03-18 |
发明(设计)人: | 左祥;金浩 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G10L15/32 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 程连贞 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语音 问答 系统 用于 交互式 方法 | ||
技术领域
本发明涉及基于语音的问答系统和用于交互式语音系统的方法。
背景技术
近年来,能够自动回答用户所问的问题的基于语音的问答系统得到研究。对于该类系统,基于实例的答复生成方法是一种有效的方法,所述基于实例的答复生成方法利用问答数据库,所述问答数据库中包括很多问题-答案对。当一个问答系统从用户接收到问题时,它首先通过语音识别器来识别用户所问的问题,然后从问答数据库中选择问答数据库中的与语音识别器所识别的结果最相似的问题,并将问答数据库中的与所选择的问题成一对(即,相对应)的答案提供给用户。
但是,基于实例的答复生成方法的问题是开发人员无法事先把所有类型的问题-答案对都记录在问答数据库中。由于一个要问的问题的变型可以有很多种,对于开发人员而言,很难将它们都事先记录到问答数据库中;进一步地,将很多个问题的各种变型都事先记录到问答数据库中更是无法实现。当问答数据库中没有记录与所问的问题类似的问题(和相应的答案)时,该问答系统会请用户问另外的问题,或者仅向用户提供不正确的答案。
鉴于以上原因,需要提高基于语音的问答系统的问答数据库中记录的问题-答案对的数量。
一种解决的方法例如是,开发人员可以先记录用户所问的问题。然后,人为地听取所记录的问题并转录这些问题,并检测这些问题在问答数据库中是否有记录(问题检测步骤)。然后,开发人员为每个未被记录的问题提供答案,并将所述未被记录的问题和提供的其答案添加到问答数据库中(答案生成步骤)。
但是,该方法的问题检测步骤和答案生成步骤都需要人工操作,这使得该方法效率低下。
另外,常规的基于语音的问答系统仅根据用户所问的问题的声学和语言特征来确定用户所问的问题是否在系统中有记录。从而导致如果用户所问的问题与系统中的例如问答数据库中记录的问题在字面意思上不一致(即,单纯的文字上不一致)时,常规的系统会把用户所问的问题作为系统中未记录的问题对待,从而使得这样的问答系统的识别问题的精度较低,能够准确回答的问题也较少。而如果想覆盖更多的问题,则必须增加系统中记录的问题-答案对的数量,这对于系统的存储容量提出更高的要求。
例如,假设在问答数据库中记录了“给我操作手册看看”,而用户所问的问题是“我想读一本手册”,那么常规的基于语音的问答系统会将用户所问的该问题分类为未记录的问题。但是,这两句话的意思差不多,也就是说,用户所问的该问题应当被认为等同于问答数据库中记录的相应问题而被分类为已记录的问题。即,语义对于基于语音的问答系统也是很重要的一个方面,但是在已有的方法中却仅考虑了用户所问的问题的声学和语言特征(即,字面意思),语义上的相似却未被考虑。
发明内容
综上可知,需要一种以下这样的基于语音的问答系统:其能够自动确定用户所问的问题是否在系统中(例如,系统的数据存储单元中)有记录。优选地,还需要该系统能够提高其中所存储的数据的有效性从而减轻对于存储容量的需求,需要使得该系统的识别问题的精度更高,需要使得该系统所覆盖的问题的范围更大。
本发明旨在解决上面描述的至少一个问题。本发明的一个目的是提供一种解决以上问题中的任何一个的基于语音的问答系统和用于交互式语音系统的方法。
具体地,对于用户所问的问题,通过计算语音识别单元对于该所问问题的识别结果与系统中所存储的相关数据的在语义(所表达的含义)上的相似程度(简称语义相似度),确定该所问问题在系统中是否有与其匹配的数据。
如果该所问问题在系统中有与其匹配的数据,则可以输出与该匹配数据对应的输出数据。
如果该所问问题在系统中没有与其匹配的数据,则可以将该所问问题存储到系统中以扩展系统中所记录的数据。
根据本公开内容的一个方面,提供一种基于语音的问答系统,所述系统包括:问答数据存储单元,在该问答数据存储单元中相关联地存储问题以及对应于所述问题的答案;语音识别单元,通过使用语言模型对于用户说出的问题进行语音识别;语义相似度计算单元,根据语音识别单元对于用户说出的问题的识别结果,计算用户说出的问题与所述问答数据存储单元中存储的每个问题之间的语义相似度,其中,所述语义相似度用于表示用户说出的问题与所述问答数据存储单元中存储的每个问题所表达的意思上的相似程度;以及分类单元,基于所述语义相似度计算单元所计算出的所述语义相似度,将用户说出的问题分类为在存储单元内的问题或者在存储单元外的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310390944.X/2.html,转载请声明来源钻瓜专利网。