[发明专利]一种基于情感识别与瞳孔大小计算的Deepfake检测方法有效
申请号: | 202011532434.8 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112699236B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 刘毅;王鹏程;陈晋音 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G10L15/06;G10L15/16;G10L25/63;G10L25/24;G06T7/00;G06V40/18;G06V40/16;G06V20/40;G06V10/74;G06K9/62 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 彭剑 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 情感 识别 瞳孔 大小 计算 deepfake 检测 方法 | ||
本发明公开了一种基于情感识别与瞳孔大小计算的Deepfake检测方法,包括:(1)将语音数据划分为训练集X和测试集Q后进行数据处理,并对训练语音识别模型Y进行训练和测试;(2)将文本数据划分为训练集N和测试集P后进行数据处理,并对训练文本情感分类模型M进行训练和测试;(3)对于待检测的Deepfake视频,提取音频后输入到语音识别模型Y中,再将输出的文本输入到文本情感分类模型M,得到与文本对应的情感;(4)将待测的Deepfake视频转换为图片帧,检测人眼瞳孔的大小;(5)将检测到的人眼瞳孔大小与文本情感分类模型M得到的情感进行匹配,如果不匹配,则判定是假视频。本发明对不同的Deepfake方法生成的假视频都能够较好的检测,泛化能力强。
技术领域
本发明属于机器学习技术领域,尤其是涉及一种基于情感识别与瞳孔大小计算的Deepfake检测方法。
背景技术
语音识别技术就是要让计算机听懂人在说什么,实现人类与机器之间的语音交流,还能将人类说出的话以文本的形式输出。近些年来语音识别技术取得了显著的进步,开始从实验室走进大家的生活中,比如智能手机中的语音助手、语音翻译等。语音识别技术常用的方法有随机模型法、概率语法分析、基于语言学和声学的方法以及利用人工神经网络的方法等,其中最常见用的就是随机模型法。
如公开号为CN106792140A的中国专利文献公开了一种基于声音识别的广播电视广告监测系统,通过声音识别建模模块对样本声音和待识别的声音的特征值进行模型构建,保证待识别特征与模板特征之间识别的准确性;通过声音匹配模块对匹配的声音进行量化,提高匹配的准确性;其声音识别建模模块采用的识别方法包括模板匹配法和随机模型法。
文本情感分析就是对带有主观性情感色彩的文本进行分析得到文本对应情感归属,互联网上存在着大量的用户对某一事件、人物、产品等的评论,这些评论中包含了用户的情感倾向性,通过文本情感分析就可以分析出大众对这些事件、人物或产品等的看法。按照处理的细粒度不同文本情感分析可以分为词语级、句子级、篇章级三个研究层次。本发明用到的就是句子级的文本情感分析。
正常人群的瞳孔大小与情绪状态有关,瞳孔的放大和缩小是由平滑肌控制的,而平滑肌是自主神经控制的,不是人的意识所能改变的,一个人有办法控制自己的行为、语言、动作,就是没办法去控制自己的瞳孔,尤其是瞳孔的细微变化更是没办法控制。心理学研究表明一个人的瞳孔大小能够反映出其当前的情绪状态,当一个人感到愉悦或兴奋时他的瞳孔就会扩大到原来的4到5倍,当一个人感到生气或厌烦时瞳孔就会不自觉的缩的很小。
目前,随着Deepfake技术的出现,人们已经很难用肉眼去分辨一些假的视频或者图片了,而网络上又存在一些对社会影响较大的假的图片或视频。比如对一些公众人物进行换脸,使他们散播虚假言论或者是恶意诽谤他人。因此对这些假的图片或视频的检测就显得尤为重要,但是目前的Deepfake技术也存在一些不足,就是对一些面部的细节伪造得不够到位,比如说瞳孔的大小变化,毛孔的缩放等。
发明内容
本发明提供了一种基于情感识别与瞳孔大小计算的Deepfake检测方法,可以克服现有的Deepfake检测技术应用场景不够全面,而且往往会造成对某种Deepfake方式的过拟合,缺乏泛化能力的问题。
一种基于情感识别与瞳孔大小计算的Deepfake检测方法,包括以下步骤:
(1)选择语音数据的语料库,将语音数据划分为语音训练集X和语音测试集Q后进行语音数据处理,并对训练语音识别模型Y进行训练和测试;
(2)选择文本数据的语料库,将文本数据划分为文本训练集N和文本测试集P后进行文本数据处理,并对训练文本情感分类模型M进行训练和测试;
(3)对于待检测的Deepfake视频,将其从视频中提取音频,然后把音频经过数据处理后输入到语音识别模型Y中,语音识别模型Y输出对应的文本,再将输出的文本经过数据处理后输入到文本情感分类模型M,得到与文本对应的情感;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011532434.8/2.html,转载请声明来源钻瓜专利网。