[发明专利]一种有害音频检测方法及装置在审
申请号: | 202011092241.5 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112837677A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 张震;石瑾;李鹏;夏静雯;方磊 | 申请(专利权)人: | 讯飞智元信息科技有限公司;国家计算机网络与信息安全管理中心 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08;G10L15/26;G10L25/60;G06F16/68;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 有害 音频 检测 方法 装置 | ||
本发明公开了一种有害音频检测方法及装置,该包括如下步骤:步骤SS1:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;步骤SS2:基于步骤SS1获得的识别的文本内容,采用SVM分类器进行分类;步骤SS3:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;步骤SS4:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。本发明通过解决正、反例样本数量失衡条件下的小样本训练的问题,最终提高有害音频检测的准确率。
技术领域
本发明涉及一种有害音频检测方法及装置,属于人工智能技术领域,具体涉及音频数据的意图识别。
背景技术
有害音频主要为涉毒类的音频文件,涉毒类音频样本具有重要的情报价值,但样本十分稀疏,正例样本属于一类小样本条件下的语音分类任务。
有害音频发现是音频文件意图识别应用的一个子方向,其目的是要从固定电话、移动互联网所产生的数以万计的音频文件中,自动的识别出涉毒、涉暴、涉黄等包括有害信息的音频文件,本案主要讨论涉毒有害音频的自动发现问题。涉毒类音频文件意图会被刻意的伪装,与毒品有关的名词及采取的各类活动会借用其它词来替代,仅从字面上理解是很难与涉毒活动关联起来的。客观上造成了,这类正例样本不仅少而且难以收集。相对海量的音频文件,从统计意义上涉毒音频几乎可忽略不计,但从实际的情报价值来看,对于反毒破案其意义不言而喻。因此,这是一类正例样本极度稀缺、负例样本占主导的二分类问题。那么基于意图识别的涉毒音频发现技术包含两个关键技术难点:1)正例样本获取。如何从海量音频文件中获取正例样本是构建基于有监督学习的自动分类系统的关键。2)基于小样本智能学习的识别技术。如何构建适用于小样本的分类学习算法,同样是问题的关键。
目前主流的意图识别技术可以按技术路线分为两类:基于关键词匹配和规则文法的要素抽取技术方案和基于机器学习、深度学习的意图识别方案。
基于关键词匹配的意图识别技术,是通过精确关键词匹配来达到分类的目的的,但是对精确关键词匹配技术做了扩充,不仅仅通过单个关键词进行匹配,而且通过定义组合关键词,以及在组合关键词上进行多种模式的匹配来达到的。关键词策略对文本进行关键词匹配,首先对输入的文本句子进行分词,通过正向单关键词、正向组合关键词和负向组合关键词进行意图识别,然后将分类得分归一化,大致技术原理如图1所示。
基于规则文法的要素抽取技术基于设定的文法规则,通过将定义的分类目标进行分解,分解为多个小的目标点,分别针对每个目标任务定义多个文法,用来匹配输入,最后通过统计匹配上的不同类别下的目标点的情况来决策是否属于某个定义的意图分类类别,比如,一个输入文档,同时匹配上了“办卡、存取钱业务”中的多个文法,则很大程度是该输入文档中内容是涉及到银行业务相关内容,可以认为是属于银行客服这个类别,通过文法进行意图分类的整体过程如图2所示。
基于机器学习的意图识别算法有LDA-SVM分类算法。LDA(Latent DirichletAllocation)认为一篇文档(Document)可以由多个主题(Topic)混合组成,每个主题都是词汇上的概率分布,文章中的每个词都是由一个固定的主题生成的。支持向量机(SupportVector Machine,SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机,SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题,SVM的学习算法就是求解凸二次规划的最优化算法。LDA-SVM模型首先使用LDA对整个语料库进行建模,划分K个主题,提取每个主题的特征,得到每个文档的主题分布,即每个文档包含的每个主题的权重,此权重即可作为特征,然后使用SVM对LDA提取的特征进行建模,预测意图类别,最后将分类得分归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于讯飞智元信息科技有限公司;国家计算机网络与信息安全管理中心,未经讯飞智元信息科技有限公司;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011092241.5/2.html,转载请声明来源钻瓜专利网。