[发明专利]基于说话人分割的角色识别方法及装置在审

申请号：	202110851365.5	申请日：	2021-07-27
公开（公告）号：	CN115691506A	公开（公告）日：	2023-02-03
发明（设计）人：	王瑾;张春;孙昊;丛凌雷;杜壮	申请（专利权）人：	中移动信息技术有限公司;中国移动通信集团有限公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/14;G06F40/30
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	陈新生
地址：	100033 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于说话分割角色识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于说话人分割的角色识别方法及装置，该方法包括：将待识别会话语音转换为文本数据，基于句子切分模型将所述文本数据切分成多个句子，提取每个句子的文本特征；对所述待识别会话语音切分，获取每个句子对应的音频段，提取每个音频段的声学特征；基于注意力机制对每个句子对应的文本特征和声学特征进行对齐，生成每个句子对应的对齐向量；根据每个句子对应的对齐向量、文本特征和声学特征，基于分类模型获取每个句子对应的说话人类别。本发明使用文本和音频之间的交互特征进行角色识别，提高角色识别的准确性。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于说话人分割的角色识别方法及装置。

背景技术

目前，对语音会话的角色识别主要包括两个模块，即说话人分割和角色识别。两者在客服语音自动分割识别、智能会议记录等任务中发挥着重要作用。

其中，说话人分割是指在采集的语音信号流中，分辨出不同说话人的说话时长并标注。角色识别是指为多人对话中的各语音片段标注出说话人。现有技术对语音进行角色识别时，使用音频特征或音频转写后的语义特征进行角色识别，角色识别准确性较低。

发明内容

本发明提供一种基于说话人分割的角色识别方法及装置，用以解决现有技术中使用音频特征或音频转写后的语义特征进行角色识别，角色识别准确性较低的缺陷，实现提高角色识别的准确性。

本发明提供一种基于说话人分割的角色识别方法，包括：

将待识别会话语音转换为文本数据，基于句子切分模型将所述文本数据切分成多个句子，提取每个句子的文本特征；

对所述待识别会话语音切分，获取每个句子对应的音频段，提取每个音频段的声学特征；

基于注意力机制对每个句子对应的文本特征和声学特征进行对齐，生成每个句子对应的对齐向量；

根据每个句子对应的对齐向量、文本特征和声学特征，基于分类模型获取每个句子对应的说话人类别。