[发明专利]语音识别文本连贯性处理方法和装置有效
申请号: | 202010694673.7 | 申请日: | 2020-07-17 |
公开(公告)号: | CN111832308B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 缪庆亮;吴仁守;朱钦佩;朱少华 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/211;G10L15/26 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 文本 连贯性 处理 方法 装置 | ||
本发明公开一种语音识别文本连贯性处理方法和装置,其中,语音识别文本连贯性处理方法,包括:识别出语音识别文本中的至少一个关键信息的起始位置;从起始位置开始取多个句子,根据句子中的每个词或每个词组的第一词嵌入计算与句子对应的第二词嵌入,根据第二词嵌入计算文本片段对应的第三词嵌入;至少基于第一词嵌入、第二词嵌入和第三词嵌入计算句子与其他句子之间的相似度、句子与起始句子之间的距离衰减以及句子与起始句子之间的连贯度;基于相似度构建语义图,并根据语义图计算句子的重要程度;利用图聚类算法获取一个或多个聚类中心,计算相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列。
技术领域
本发明属于语音识别后处理技术领域,尤其涉及语音识别文本连贯性处理方法和装置。
背景技术
相关技术中,语音识别系统ASR(Automatic Speech Recognition)识别结果中句子的断句存在错误,导致语音转写后的文本在进行质检和会议摘要等文本分析时出现问题。文本分析系统面临着ASR识别结果不连贯等问题。
目前判断句子是否连贯的方法主要有:
基于声学特征的方法:根据人在说话时的停顿或者韵律(prosody)进行整句的预测。
基于文本特征的方法:使用语言模型建模或者序列标注建模来预测某个词后面是否是句子结束的标志。
发明内容
本发明实施例提供一种语音识别文本连贯性处理方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音识别文本连贯性处理方法,包括:通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容;从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入;至少基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度;基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度;利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列。
第二方面,本发明实施例提供一种语音识别文本连贯性处理装置,包括:识别模块,配置为通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容;嵌入模块,配置为从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入;第一计算模块,配置为至少基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度;构建模块,配置为基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度;以及第二计算模块,配置为利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列。
第三方面,提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行第一方面所述的语音识别文本连贯性处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010694673.7/2.html,转载请声明来源钻瓜专利网。