[发明专利]一种基于人工智能的多模态语义识别服务接入方法在审
申请号: | 202011036983.6 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112201228A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 黄晨宇 | 申请(专利权)人: | 苏州贝果智能科技有限公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/25;G10L15/02;G10L15/08;G10L25/57 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215000 江苏省苏州市昆山市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 多模态 语义 识别 服务 接入 方法 | ||
1.一种基于人工智能的多模态语义识别服务接入方法,包括以下方法:
基于多模态对齐的语音情感识别的模型,首先通过语音进行识别,识别时,通过视频设备、录音设备进行语音的收集,收集好的语音信息先进行分类,分类后的语音进行特征标记,然后将收集好的语音进行分析,利用双向长短期记忆模型对音频基于帧进行高维特征表示,且对语音识别出的文字进行特征化,对特征化的语音与相对应的文字进行匹配,匹配后的语音按照情绪特征进行分类,最后对识别出来的文字和信息进行整理,将整理的信息再次特征化。
2.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,基于多模态融合的训练,进行人工智能的语音训练,人机互动包含语音、图片、视频和文字,从帧序列中提取出语音和图像视频特征,按语音对应的视频片段,在各个中间阶段的不同模态之间的特征可以融合,在最后把不同模态的特征合并连接在一起又会形成混合的特征向量,最后融合的特征集,可以用支持向量机自动进行二分类。
3.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,语音识别相关的视频在于嘴部的图像和运动信息,将嘴部作为感兴趣区域,嘴部感兴趣区域都缩放到归一化的像素尺寸,进一步降维,用1-4帧连续视频作为输入,对应3-10帧连续语音的帧,对每个模态,在时间上进行特征平均值归一化,时间序列的导数用归一化线性斜率表示,体现了信号的变化特征,在训练和实际使用中,对缺失一种模态,即缺失语音、文字和视频的情况,依靠其它一种或二种模态进行工作,语音来自独立麦克风或从视频中提取,文字来自字幕、用户打字输入,图像视频中识别出的字符。
4.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,多模态语义识别服务还包括自然语言理解引擎,自然语言理解引擎采用多模态推理技术,对于多个领域的客服知识库,引擎采用文本聚类技术自动将知识点分为不同的子类,在每个子类知识库的推理过程中采用不同的参数,表现为多个相互独立的引擎模态,细化推理颗粒度,同时在软件技术上采用多线程方式。
5.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,融合文字与图像视频深度学习神经网络,利用文字和视觉之间的交叉相关提供用户问题的答案,多模态神经网络模型包含图像神经网络用于描述图像信息,另一个文字语义匹配神经网络进行文本信息中的单词的语义构建,两种模态之间的融合体现在由模型学习图像与文本之间的关联匹配关系。
6.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,基于手机拍照时的彩色图像和手机自带的激光测距得到的深度图,二者通过双模态信息的融合,实现机器人对目标的理解和分类。
7.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,基于文字的深度学习网络和基于图像的网络,在各层的中间特征层面进行多模态融合,并且在最后的输出进行融合,从而对图文并茂的内容进行综合理解,可以理解用户表达的喜怒哀乐情绪。
8.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,自然语言处理是在技术层面上的深度学习和知识层面上语言学应用的结合,语言学领域研究包括:词干提取、词形还原、分词、词性标注、命名实体识别、词义消歧、组块识别、句法分析、语义角色标注、共指消解、篇章分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州贝果智能科技有限公司,未经苏州贝果智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011036983.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:USB外设、话机设备及话机系统
- 下一篇:石灰改良膨胀土击实试验方法