[发明专利]会议纪要生成方法、装置、计算机设备及存储介质有效

申请号：	201910766155.9	申请日：	2019-08-19
公开（公告）号：	CN112466306B	公开（公告）日：	2023-07-04
发明（设计）人：	许家铭;石晶;徐波	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/04
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	孟德栋
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	会议纪要生成方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例涉及一种会议纪要生成方法、装置、计算机设备及存储介质，所述方法包括：调用语音采集设备采集会议过程的全程语音，调用图像采集设备采集会议过程的全程图像；从全程语音中提取单通道语音，从单通道语音中分别提取多个语音分段数据流；针对每个语音分段数据流，从全程图像中截取与该语音分段数据流对应的图像分段数据流；将每个语音分段数据流以及对应的图像分段数据流输入语音发出者检测模型，提取多个对应的语音发出者身份信息以及位置信息；将每个语音分段数据流，以及对应的语音发出者身份信息、位置信息输入语音识别模型，提取多个对应的语音转录文字；依次记录每个语音转录文字以及对应的语音发出者身份信息，生成会议纪要。

技术领域

本发明实施例涉及计算机信息自动处理技术领域，尤其涉及一种会议纪要生成方法、装置、计算机设备及存储介质。

背景技术

在各类工作和生活环境中，会议是人们沟通信息、完成讨论、制定计划的一个非常重要的场景。在多人的会议当中，通常进行多轮发言和对话，通过一系列上下文相关的语音和内容完成了交流和沟通。其中，语音作为人们进行信息交互最自然、最有效的手段，广泛存在于各种会议场景中。

在日常生活中，人们通过语言之间的沟通，其实是基于多种感官信号(例如听觉、视觉)共同的刺激而完成的。例如，在日常的一段对话中，除了听觉通路本身的纯语音信号之外，视觉也会带来比如对语音发出者的身份的确认、对语音识别的提升(例如通过唇语动作的辅助)等作用。

具体到会议类场景中，由于语音发出者的身份不止一个，对会议场景中存在的语音进行简单的转录，而忽略了对语音发出者身份的确认，导致每一段语音缺乏语音发出者的身份信息，后续需要使用人工的方式去确认每一段语音的语音发出者的身份信息，效率比较低。

发明内容

鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供了一种会议纪要生成方法、装置、计算机设备及存储介质。

第一方面，本发明实施例提供了一种会议纪要生成方法，所述方法包括：

调用语音采集设备采集会议过程中的多个语音发出者对应的全程语音，调用图像采集设备采集会议过程中的多个语音发出者对应的全程图像；

从所述全程语音中提取单通道语音，从所述单通道语音中分别提取多个语音分段数据流，其中，每个语音分段数据流均属于一个语音发出者；

针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，其中，每个语音分段数据流与对应的图像分段数据流均属于同一语音发出者；