[发明专利]会话环节识别方法、装置及设备、存储介质有效
申请号: | 202010933549.1 | 申请日: | 2020-09-08 |
公开(公告)号: | CN111798871B | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 魏海巍;万菲 | 申请(专利权)人: | 共道网络科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/57;G10L25/27;G10L25/03;G10L17/06;G10L15/08 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 王叶娟 |
地址: | 311100 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 会话 环节 识别 方法 装置 设备 存储 介质 | ||
本发明提供一种会话环节识别方法、装置及设备、存储介质,可以确定会话音频中音频段落对应的会话环节。该方法包括:从会话音频待识别的目标音频段落中获取该目标音频段落中的发言角色的发言内容和音频特征信息,所述目标音频段落的发言来自一个或多个发言角色;依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量;将所述目标特征向量输入至已训练的会话环节识别模型,以得到所述会话环节识别模型输出的所述目标音频段落对应的会话环节。
技术领域
本发明涉及计算机技术领域,尤其涉及的是一种会话环节识别方法、装置及设备、存储介质。
背景技术
在一些会话场景中,会通过音视频记录会话过程,以便于后续通过回放音视频来了解整个会话过程。比如,司法审判中,开庭审理过程通常会形成一个全流程的视频(即庭审视频),并配套同步的音频(庭审音频),记录整个开庭中庭审参与者的庭审活动。庭审音视频对于参与庭审的法官、书记员、其他庭审参与者有着非常重要的意义,被允许公开的庭审音视频对于未参与庭审的法官、律师、法律服务者、司法从业者、公众调解组织来说,是一个很好的类案参照,对于普通大众,会起到很好的教育、指引作用。
但通常情况下,音视频的播放时长较长,观看者如果希望观看某个关键的或者是自己感兴趣的环节,需要通过拉动进度条一点点尝试地查找出相应的环节,效率比较低,如果可以预先确定好音视频中哪些段落对应于哪个环节,就可以帮助观看者快速地定位需要观看的环节。
发明内容
有鉴于此,本发明提供一种会话环节识别方法、装置及设备、存储介质,可以确定会话音频中音频段落对应的会话环节。
本发明第一方面提供一种会话环节识别方法,包括:
从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的发言内容和音频特征信息,所述目标音频段落的发言来自一个或多个发言角色;
依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量;
将所述目标特征向量输入至已训练的会话环节识别模型,以得到所述会话环节识别模型输出的所述目标音频段落对应的会话环节。
根据本发明的一个实施例,从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的发言内容,包括:
对所述目标音频段落进行音频识别,得到识别出的至少一个参考语句;
将所述参考语句输入至已训练的纠错模型,所述纠错模型用于纠正所述参考语句中的错误内容,得到所述纠正模型输出的候选语句;
基于所述候选语句确定所述发言内容。
根据本发明的一个实施例,从会话音频待识别的目标音频段落中,获取该目标音频段落中的发言角色的音频特征信息,包括:
将所述目标音频段落输入至已训练的音频特征抽取器,以得到所述音频特征抽取器输出的音频特征信息;所述音频特征抽取器至少包括用于从输入的音频段落中抽取音频特征的抽取层、以及用于对音频特征进行嵌入表达并输出表达的音频特征信息的嵌入层;
将所述音频特征抽取器输出的音频特征信息确定为所述目标音频段落中的发言角色的音频特征信息。
根据本发明的一个实施例,依据所述发言内容和音频特征信息确定所述目标音频段落对应的目标特征向量,包括:
将所述发言内容和音频特征信息输入至已训练的向量模型中,以由所述向量模型基于输入的发言内容和音频特征信息确定对应的特征向量并输出;
将所述向量模型输出的特征向量确定为所述目标特征向量。
根据本发明的一个实施例,所述向量模型通过以下方式训练得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于共道网络科技有限公司,未经共道网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010933549.1/2.html,转载请声明来源钻瓜专利网。