[发明专利]一种基于云技术语音识别与智能鉴别“黑广播”方法有效
申请号: | 201910278293.2 | 申请日: | 2019-04-08 |
公开(公告)号: | CN109995450B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 李祖广;吴启晖;吴光宇;黄振炎;柳文德 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | H04H20/14 | 分类号: | H04H20/14;G10L15/30;G06K9/62 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 上官凤栖 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 技术 语音 识别 智能 鉴别 广播 方法 | ||
1.一种基于云技术语音识别与智能鉴别“黑广播”方法,其特征在于,包括如下步骤:
第一步,对人工已经鉴别为“黑广播”的信号或者以往存储的信号进行解调,并送入云端进行语音识别,获得“黑广播”音频转文字数据样本;
第二步,采用DNN对已知“黑广播”文字数据样本进行无监督学习、训练,提取“黑广播”特征关键词,形成关键词库;关键词库的实现步骤如下:
1)文字信息获取;
2)使用TextRank算法提取关键词;
①首先对文本T进行分割,得到句子集合,假设一段文本依次由下面的句子集合组成:
S={S1,S2,...,Sn}
式中,n表示句子数量,并将句子集合中的元素作为节点添加到无相图中;
②将句子切割为词语集合:
Sp={V1,V2,...,Vm}
式中,m表示词语数量,p=1,2,...,n,确定每个词语词性,并进行词性标注,过滤掉礼貌用语、人称代词、停用词和冗余的文字,剩下的词语作为备选关键词,这些备选关键词集合表示为:
Sq={t1,t2,...,tz}
式中,z表示备选关键词数量,q=1,2,...,n,并根据关键词在句子中的联系,在无向图中形成边,即有关联的句子进行相连;
③构建出备选关键词图G={S,E},其中E为Si×Sj,i,j=1,2,...,n,即相连边的集合,通过对备选关键词中共现关系连接任意2个节点的边,其邻接矩阵Sij表示节点Si和节点Sj相连得到的边;
根据迭代公式进行迭代:
式中,Score(Si)为节点Si的权重值,In(Sj)为指向节点Si的节点Sj的集合;Out(Sj)为节点Sj指向节点集合;d为图中任意两节点可能相连的概率;
④分别计算各节点的权值,直至收敛完成;对各节点的权值倒序排列,进而得到关键词序列,选择权值较大的节点为文本T的关键词;
3)形成关键词库:使用TextRank算法对文本{T1,T1,…,Tr}分别进行关键词提取,r表示文本数量,得到关键词集,重复步骤2)中的步骤③、④,获得关键词库;
第三步,将解调后的待鉴别广播音频信号送入云端进行语音识别,获得广播音频转文字内容;
第四步,将文字内容与关键词库相似性匹配,获得相似性匹配结果;关键词相似性匹配,其匹配算法如下:
①计算单个关键词的权重值:
式中,tm表示单个关键词在该文本T中出现的次数,表示在仅查询区域|Ti|中查询出现次数的倒数,wmax表示该关键词最大权重值;
②通过计算关键词库中每个关键词在已知“黑广播”信号中的权重值,确认权重值的阈值;
③将权重值与阈值进行比较,如该广播的权重值大于阈值,则可判断其为“黑广播”。
2.如权利要求1所述的一种基于云技术语音识别与智能鉴别“黑广播”方法,其特征在于:所述第三步中,对解调后的广播语音信号送入云平台进行语音识别,云平台将广播语音信息转换为文字信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910278293.2/1.html,转载请声明来源钻瓜专利网。