[发明专利]语音对话重构方法及装置在审

申请号：	202110255584.7	申请日：	2021-03-09
公开（公告）号：	CN113450772A	公开（公告）日：	2021-09-28
发明（设计）人：	黄铭振;金善泰;池昌真	申请（专利权）人：	语享路有限责任公司
主分类号：	G10L15/04	分类号：	G10L15/04;G10L25/87;G10L13/04
代理公司：	北京京万通知识产权代理有限公司 11440	代理人：	齐晓静
地址：	韩国首***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音对话方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种语音对话重构装置的语音对话重构方法，其中，包括：为语音对话获取对于不同说话者的语音识别数据的步骤；根据预定的划分标准，使用令牌之间的边界将获得的所述每个说话者语音识别数据划分为多个块的步骤；将划分的所述多个块与每个说话者无关地按视觉顺序排列的步骤；相对于排列的所述多个块，通过同一说话者的连续语音合并块的步骤；通过划分所述视觉顺序和说话者，以对话形式重构反映合并结果的所述多个块的步骤。

技术领域

本发明涉及一种用于以对话形式为语音对话重构每个说话者的语音识别数据的方法及装置。

背景技术

在输入和处理自然语言的技术中，STT(语音转文本)是一种将语音转换为文本的语音识别技术。

这些语音识别技术根据实时特性可以分为两种，一种是一次接收并转换要转换的语音的方法，另一种是接收以预定单位(例如，小于1秒的单位)实时产生的语音并实时转换的方法。

其中，批量转换方法通常在识别整个输入语音之后立即生成结果，而实时转换方法必须定义生成语音识别结果的时间点。

定义实时转换方法的识别结果的生成时间点的主要方法有三种。第一，可以在输入特殊结束信号(例如，识别/呼叫结束按钮操作等)时生成识别结果。第二，当发生在预定长度(例如0.5秒)以上的静音等的EPD(端点检测离子)时，可以生成识别结果。第三，可以每隔预定时间生成识别结果。

其中，定义识别结果的生成时间点的第三种方法具有未结束连接的识别结果生成的始点，即可能是说话的途中的不完整特征。主要用于临时获取从某个点到目前为止识别出的结果，而不是生成正式结果，并且这种方式获得的结果称为部分结果，而不是完整的识别结果。

与基于EPD边界的识别结果不同，这种不完整的结果可以将前一生成结果包括在当前生成的结果中。例如，EPD单位识别结果生成“ABC”，“DE”和“F G”以识别“ABCDEFGH”，然而，不完整结果除非出现“A”，“AB”，“ABC”，“D”，“DE”，“F”，“FG”，“FGH”的EPD，否则不完整的结果通常包括过去生成结果。

另一方面，近年来，语音识别技术已经极大地提高了语音识别的准确性，

在识别与大量说话者的对话的情况下，存在两个或多个人同时说话的情况下重叠部分的语音识别问题或识别哪个说话者的声音的问题。

因此，在商业系统中，使用一种通过使用每个说话者的每个输入设备来识别每个说话者的语音来生成及获取每个说话者的语音识别数据的方法。

在为语音对话为每个说话者生成及获得语音识别数据的情况下，必须以对话形式来重构所获得的每个说话者的语音识别数据，用于将每个说话者的语音识别数据重构为对话形式的技术正在被不断研究。

【现有技术文献】

【专利文献】

(专利文献1)韩国公开专利公报第10-2014-0078258号(2014.06.25公开)

发明内容

要解决的技术问题

本发明是鉴于所述诸多问题而提出的，其目的在于，提供一种在将用于语音对话的每个说话者的语音识别数据重新组织为对话形式时，与实际对话流程尽可能接近的对话结构的语音对话重构方法及装置。

本发明要解决的问题不限于上述问题，通过以下描述，本领域普通技术人员将清楚地理解未提及的要解决的另一个问题。

技术方案