[发明专利]语义识别方法、装置、电子设备及可读存储介质在审

申请号：	202110627485.7	申请日：	2021-06-04
公开（公告）号：	CN113342935A	公开（公告）日：	2021-09-03
发明（设计）人：	胡洪兵;武卫东;陈明;李健	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F40/151;G06F40/30;G06N3/04;G06N3/08
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语义识别方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种语义识别方法、装置、电子设备及可读存储介质，所述方法包括：获取语音通话内容生成的语音文本数据；将所述语音文本数据输入抽取模型，其中，所述抽取模型由所述语音文本数据训练获得，所述抽取模型对所述语音文本数据中每个字符进行二分类处理，得到第一标签和第二标签；所述抽取模型对所述第一标签进行处理，生成与所述第一标签对应的事件信息；根据所述事件信息进行合并，生成语义识别的结果。本发明实施例通过序列标注神经网络模型来标注语音通话内容，在意图解码时，解码结果更加准确，减少冗余信息，获取用户的真实意图，提高程序运行性能且生成的结果可控，解决了智能客服系统中对语义识别的准确率较低的问题。

技术领域

本发明涉及语音识别领域，特别是涉及一种语义识别方法、装置、电子设备及可读存储介质。

背景技术

随着人工智能的发展，在语音识别领域中，用户进行语音通话时产生的语音文本包含的信息点极其宽泛，机器无法通过对整体的语音文本进行分类的方法去获取用户的意图。

为了避免人工智能客服在与用户沟通中由于无法准确获取用户真正意图而导致无法解决用户提出的问题，现有技术采取针对语音文本进行文本摘要，通过文本摘要进行用户语义识别。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要，文本摘要按照输出类型可分为抽取式摘要和生成式摘要，抽取式摘要从源文档中抽取关键句和关键词组成摘要，摘要全部来源于原文；按照有无监督数据可以分为有监督摘要和无监督摘要。

在语义识别中，目前技术方案主要是基于无监督的抽取方案包括lead3、TextRank等算法等；TextRank算法基于谷歌的pageRank算法，通过构建句子之间的相似度关系进行迭代打分，从而获得得分最高的topN个句子作为摘要。然而，在实际应用中，这种方法缺点是无监督，会引入过多的冗余信息，抽取的结果是文本中的重要句子，造成无法抽取用户真实意图的问题。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语义识别方法、装置、电子设备及可读存储介质。

根据本发明的第一方面，提供了一种语义识别方法，所述方法包括：

获取语音通话内容生成的语音文本数据；

将所述语音文本数据输入抽取模型，其中，所述抽取模型由所述语音文本数据训练获得，所述抽取模型对所述语音文本数据中每个字符进行二分类处理，得到第一标签和第二标签；

所述抽取模型对所述第一标签进行处理，生成与所述第一标签对应的事件信息；

根据所述事件信息进行合并，生成语义识别的结果。

可选地，所述语音文本数据为字符的集合，其中所述字符包括：汉字字符、字母、数字、符号。

可选地，所述第一标签和第二标签包括：

所述第一标签代表所述语音文本数据中的意图数据；

所述第二标签代表所述语音文本数据中的非意图数据。

可选地，获得所述抽取模型包括：