[发明专利]一种人员识别方法及系统在审
申请号: | 201910548568.X | 申请日: | 2019-06-24 |
公开(公告)号: | CN110275956A | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 成都数之联科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06K9/62 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 熊曦 |
地址: | 610000 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 投诉电话 投诉 构建 分类模型 人员识别 属性向量 训练数据 词向量 标注 投诉电话号码 关键词表 人工识别 训练分类 分词 拼接 聚合 采集 分析 | ||
本发明公开了一种人员识别方法及系统,包括:采集投诉电话数据,以投诉电话号码作为投诉人唯一的标识,聚合同一投诉人的投诉电话数据;构建关键词表;对投诉电话内容进行分词,构建风险词向量;构建投诉人基本属性向量;人工识别与标注投诉电话数据,将标注后的投诉电话数据作为训练数据;拼接投诉人基本属性向量和风险词向量,构建职业打假人分类模型;使用训练数据训练分类模型,利用训练后的分类模型识别待识别的投诉电话数据,通过分析投诉数据和投诉人的投诉行为准确识别职业打假人。
技术领域
本发明涉及电子信息技术领域,具体地,涉及一种人员识别方法及系统。
背景技术
电话投诉是人们进行投诉的主要手段之一。职业打假人故意购买存在问题的商品,利用 相关法律法规向商家索要赔偿。这种行为对商家乃至整个社会秩序都造成了极大的负面影响。
当前职业打假人识别多采用被动识别方式,通过商家的报警信息追溯投诉人投诉数据信 息。这种被动识别方式时效性差,识别职业打假人相对滞后。本发明提出的方法通过分析投 诉电话数据能够快速识别职业打假人。
发明内容
本发明提出了一种职业打假人识别方法及系统,该方法和系统通过分析投诉数据和投诉 人的投诉行为可以准确识别职业打假人,对相关部门开展职业打假人的整治工作起到良好的 促进作用。
为实现上述发明目的,本发明一方面提供了一种职业打假人识别方法,所述方法包括:
步骤1:采集投诉电话数据,以投诉电话号码作为投诉人唯一的标识,聚合同一投诉人 的投诉电话数据;
步骤2:构建表征职业打假人投诉内容的关键词表;
步骤3:对投诉电话内容进行分词,比对分词结果与关键词表,构建基于one-hot编码 方式的风险词向量;
步骤4:构建投诉人基本属性向量,包括:投诉次数、投诉频率、投诉区域、投诉最长间隔、投诉最短间隔;
步骤5:人工识别投诉电话内容是否为职业打假人电话,根据识别结果将投诉人标注为 职业打假人或非职业打假人,将标注后的投诉电话内容作为训练数据;
步骤6:拼接投诉人基本属性向量和风险词向量,使用梯度提升树进行建模,得到职业 打假人分类模型;
步骤7:使用训练数据训练职业打假人分类模型,利用训练后的职业打假人分类模型识 别待识别的投诉电话内容。
进一步的,构建关键词表包括6个关键词:标签、过期、日期、赔偿、规定、法规。
进一步的,采用中科院分词工具进行中文分词,首先构建一个6维风险词向量,每个维 度对应关键词表中的一个关键词,如果分词结果中存在关键词表中的词,则将风险词向量对 应维度的值设置为1。
进一步的,投诉次数为该投诉人对应的所有投诉记录数;投诉频率的计算方法为:(投诉 人最后一次投诉时间-投诉人首次投诉时间)/投诉人投诉次数;投诉最长间隔即为该投诉人 所有投诉中相邻两次投诉的最长间隔时间;投诉最短间隔即为该投诉人所有投诉中相邻两次 投诉的最短间隔时间。
进一步的,梯度提升树为决策树集成算法,描述公式如下:
式(1)为一个叠加模型,即模型的最终输出是多个子模型输出的加权求和,其中βm为 子模型h(x;am)的权重,每个子模型h(x;am)使用CART决策树表示;CART决策树是一种二分 决策树,其在每个节点划分时采用基尼系数来判断一次划分的好坏;梯度提升树采用迭代学 习方式;首先让第一棵树h(x;a1)直接拟合数据集的目标列,然后让第二棵树拟合第一棵树与 目标列之间的残差,再让第三棵树拟合第二棵树与第一棵树之间的残差,以此类推。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数之联科技有限公司,未经成都数之联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910548568.X/2.html,转载请声明来源钻瓜专利网。