[发明专利]一种基于通话文本词向量的终端诈骗电话识别方法有效
申请号: | 202010542362.9 | 申请日: | 2020-06-15 |
公开(公告)号: | CN111669757B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 孙晓晨;宁珊;林格平;张之含;侯炜;洪永婷;倪善金;周书敏;万辛;沈亮 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;杭州东信北邮信息技术有限公司 |
主分类号: | H04W12/12 | 分类号: | H04W12/12;G06F40/211;G06F40/284;G06F40/30;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 通话 文本 向量 终端 诈骗 电话 识别 方法 | ||
一种基于通话文本词向量的终端诈骗电话识别方法,包括:用户在终端App中标记来话,当标记为诈骗类别时,经用户授权同意后转化为文本,由用户检视和脱敏,并在用户授权后上传服务器保存为文本样本;对文本样本进行分词和词性标注,获得分词的句法依存标签和词组合向量,再将词组合向量、词性标注和句法依存标签拼合构成分词的内容向量,计算分词所属的情景要素标签,以获得文本样本的语义向量;构建诈骗分类识别模型,使用服务器中文本样本作为训练样本,然后将训练好的模型从服务器端推送给App;App接收新的待识别通话后,根据模型获得其所属的涉诈类别,并提示用户。本发明属于信息技术领域,能基于通话文本准确识别诈骗电话。
技术领域
本发明涉及一种基于通话文本词向量的终端诈骗电话识别方法,属于信息技术领域。
背景技术
当前境外发起的电信诈骗案件日益增加,手机用户对诈骗电话的过滤要求越来越高。但越来越多诈骗分子的通话行为趋于隐蔽化,通话行为相关的特征减弱,只有通过对通话文本进行分析识别,才可能进一步的提升手机系统对不良呼叫识别的精准率和召回率。
目前,市面上基于手机终端系统的诈骗电话过滤方法还比较初级。主流厂商通常采用用户标记的手段,即依靠用户主动标记电话的类别上传至服务器,形成诈骗号码标记库,进而对诈骗号码进行过滤。这种方法的缺陷是无法实时发现诈骗电话,往往发现时受害人已经被骗。
因此,如何基于通话文本来实现对诈骗电话的准确识别,已经成为各手机厂商和手机系统开发者普遍关注的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种基于通话文本词向量的终端诈骗电话识别方法,能基于通话文本来实现对诈骗电话的准确识别。
为了达到上述目的,本发明提供了一种基于通话文本词向量的终端诈骗电话识别方法,包括有:
步骤一、用户在手机终端App中标记来话,对于用户标记为诈骗类别的来话,经用户授权同意后提取通话并转化为文本,然后将转化后的文本交由用户检视和脱敏,最后经用户授权同意后,将用户检视和脱敏后的文本上传至服务器保存为文本样本;
步骤二、对服务器中的每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,然后计算文本样本中每个分词的词向量、字向量、拼音向量和笔画向量,以据此构成文本样本中每个分词的词组合向量,再将每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本样本对应的语义向量;
步骤三、构建诈骗分类识别模型,诈骗分类识别模型的输入是文本对应的语义向量,输出是文本所属的涉诈类别,使用服务器中用户自行上传的文本样本作为训练样本对诈骗分类识别模型进行训练,然后将训练好的模型从服务器端推送给用户的手机终端App进行模型更新;
步骤四、用户的手机终端App接收到新的待识别通话后,提取其内容文本进行分词,并生成文本中所有分词的词性标注、句法依存标签、词组合向量,然后根据手机终端App内的诈骗分类识别模型,获得待识别通话号码所属的涉诈类别,并通过App消息提示用户,
步骤二中,将文本样本中每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本对应的语义向量,进一步包括有:
步骤A1、设置多个情景要素;
步骤A2、将文本样本中每个分词的词组合向量、词性标注和句法依存标签输入LSTM模型进行编码,并得到每个分词对应的内容向量;
步骤A3、使用Self-Attention,根据每个分词的词组合向量,计算每个分词相对于其他分词的加权影响力因子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;杭州东信北邮信息技术有限公司,未经国家计算机网络与信息安全管理中心;杭州东信北邮信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010542362.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种收放架挤压保护系统
- 下一篇:一种全自动自封袋包装设备