[发明专利]谎言识别方法及装置、存储介质、计算机设备在审
申请号: | 201910346425.0 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110222331A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 朱文和 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G10L15/26 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 518000 广东省深圳市福田街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本文件 特征矩阵 样本音频 句子 标签 计算机设备 存储介质 音频文件 矩阵 句子分割 句子特征 模型训练 文件转换 构建 申请 说话 语言 | ||
1.一种谎言识别方法,其特征在于,包括:
获取样本音频文件以及与所述样本音频文件对应的标签;
将所述样本音频文件转换为文本文件;
对所述文本文件进行句子分割处理,得到与所述文本文件对应的句子文本文件;
根据所述句子文本文件,构建所述句子文本文件对应的特征矩阵;
根据所述特征矩阵以及所述特征矩阵对应的标签,训练谎言识别模型,其中,所述特征矩阵对应的标签为与所述特征矩阵相应的所述句子文本文件所在的所述样本音频文件对应的所述标签;
根据训练后的所述谎言识别模型,对待识别音频文件进行识别,得出与所述待识别音频文件对应的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述谎言样本音频文件转换为文本文件,具体包括:
解析所述样本音频文件,得到按照时间顺序排列的非空音频和空白音频;
检测每一段所述空白音频的持续时长,并根据所述持续时长确定与每一段所述空白音频对应的空白标记;
将每一段所述非空音频转换成对应的文本,并按照所述时间顺序将每一段所述非空音频对应的文本和每一段所述空白音频对应的空白标记进行排列,得到所述样本音频文件对应的所述文本文件。
3.根据权利要求2所述的方法,其特征在于,所述根据所述句子文本文件,构建所述句子文本文件对应的特征矩阵,具体包括:
根据所述句子文本文件,提取所述句子文本文件对应的特征词以及所述空白标记;
根据与所述特征词对应的特征词向量以及与所述空白标记对应的空白标记向量,构建所述句子文本文件的特征矩阵,其中,所述特征词向量与所述空白标记向量为预设向量维度。
4.根据权利要求3所述的方法,其特征在于,所述根据与所述特征词对应的特征词向量以及与所述空白标记对应的空白标记向量,构建所述句子文本文件的特征矩阵,具体包括:
计算所述特征词以及所述空白标记的总数量;
若所述总数量大于或等于预设数量,则按照所述预设数量和所述特征词以及所述空白标记在所述句子文本文件中的先后顺序,截取所述句子文本文件对应的所述特征词以及所述空白标记,并根据截取后的所述特征词对应的特征词向量以及所述空白标记对应的空白标记向量,构建所述句子文本文件的特征矩阵;
若所述总数量小于所述预设数量,则计算所述预设数量与所述总数量之差得到缺失数量,并根据与所述特征词对应的特征词向量、与所述空白标记对应的空白标记向量以及所述缺失数量的所述预设向量维度的0向量,构建所述句子文本文件的特征矩阵。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据训练后的所述谎言识别模型,对待识别音频文件进行识别,得出与所述待识别音频文件对应的识别结果,具体包括:
将所述待识别音频文件转换为对应的待识别文本文件;
按照所述待识别文本文件中的标点信息,对所述待识别文本文件进行句子分割处理,得到对应的待识别句子文本文件;
根据所述待识别句子文本文件,构建所述待识别句子文本文件对应的待识别特征矩阵;
分别将每个所述待识别特征矩阵输入至训练后的所述谎言识别模型中,得出与每个所述待识别句子文本文件对应的识别结果;
统计所述待识别句子文本文件的总数量以及所述识别结果为谎言的所述待识别句子文本文件的数量,计算所述识别结果为谎言的所述待识别句子文本文件占全部的所述待识别句子文本文件的比例;
若所述比例超过预设谎言阈值,则所述待识别音频文件存在谎言,否则,所述待识别音频文件不存在谎言。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910346425.0/1.html,转载请声明来源钻瓜专利网。