[发明专利]通话场景的识别方法和装置有效
申请号: | 202010042390.4 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111309715B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 付荑曼 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;H04L51/04 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 董慧 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通话 场景 识别 方法 装置 | ||
1.一种通话场景的识别方法,包括:
从通话集合中获取属于第一场景的标注通话集合和未标注通话集合;
根据基于所述标注通话集合和所述未标注通话集合的通话特征获得的第一分类器,从所述未标注通话集合中确定不属于第一场景的可靠负样本;
根据所述标注通话集合和所述可靠负样本的通话特征进行二分类训练,获得第一场景识别模型;
通过所述第一场景识别模型从所述通话集合中识别出属于第一场景的第一通话子集及不属于第一场景的第二通话子集;
其中,从通话集合中获取属于第一场景的标注通话集合的步骤包括:
获取与所述第一场景对应的第一预设词语;
获取所述通话集合中各个通话所属的通话群组的群名称;
筛选出群名称与所述第一预设词语匹配的通话群组;
根据在筛选的通话群组中发起的通话获得属于第一场景的标注通话集合。
2.根据权利要求1所述的方法,所述方法还包括:
获取所述通话集合中各个通话对应各类特征维度的特征数据;
对连续型特征维度下的特征数据进行正态性检验;
当检验结果指示所述特征数据不符合正态分布时,则
对所述特征维度下的特征数据进行对数变换,获得变换后的特征数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取通话集合中各个通话对应各类特征维度的特征数据;
从所述特征数据中提取主成分,获得各所述通话的通话特征。
4.根据权利要求3所述的方法,其特征在于,所述从所述特征数据中提取主成分,获得各所述通话的通话特征,包括:
将各类特征维度的特征数据进行去中心化处理后,计算协方差矩阵;
计算所述协方差矩阵的特征值及与各所述特征值对应的特征向量;
根据选取的特征值所对应的特征向量获得主成分矩阵;
根据主成分矩阵对所述特征数据进行线性变换,获得各个通话的通话特征。
5.根据权利要求1所述的方法,其特征在于,所述根据基于所述标注通话集合和所述未标注通话集合的通话特征获得的第一分类器,从所述未标注通话集合中确定不属于第一场景的可靠负样本,包括:
从所述属于第一场景的标注通话集合中选取间谍样本;
从所述标注通话集合中剔除间谍样本后,获得训练正样本;
将间谍样本添加至所述未标注通话集合中后,获得训练负样本;
根据所述训练正样本及所述训练负样本的通话特征获得第一分类器;
通过第一分类器获得所述未标注通话集合中各通话的分类概率;
根据间谍样本的分类概率确定将通话判定为不属于第一场景的概率阈值;
将所述未标注通话集合中所对应的分类概率小于所述概率阈值的通话,作为不属于第一场景的可靠负样本。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
迭代执行从未标注通话集合中剔除不属于第一场景的可靠负样本后,获得更新的未标注通话集合,根据所述标注通话集合和所述更新的未标注通话集合的通话特征,从所述更新的未标注通话集合中确定不属于第一场景的可靠负样本的步骤,直至迭代次数满足预设数量。
7.根据权利要求1所述的方法,其特征在于,所述根据所述标注通话集合和所述可靠负样本的通话特征进行二分类训练,获得第一场景识别模型,包括:
根据所述标注通话集合与所述可靠负样本划分出训练集与验证集;
根据所述训练集的通话特征训练第二分类器,获得第一场景识别模型;
其中,所述验证集用于对所述第一场景识别模型进行验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010042390.4/1.html,转载请声明来源钻瓜专利网。