[发明专利]基于评论数据的跨平台电商欺诈检测方法和系统在审
申请号: | 201810815053.7 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109145187A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 纪守领;翁海琴;段辅正;陈建海;何钦铭 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/332;G06F17/27;G06K9/62;G06Q30/00;G06Q30/06 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 评论数据 跨平台 二元分类 目标商品 训练集 网站 评论 欺诈行为检测系统 欺诈行为检测 语义 单词级别 获取目标 检测结果 平台无关 欺诈检测 人工标注 商品属性 商品特征 语义特征 构建 词汇 欺诈 检测 | ||
1.一种基于评论数据的跨平台电商欺诈行为检测方法,其特征在于,包括以下步骤:
(1)从相关电商网站获取商品的评论数据,并对所述的评论数据对应的商品属性进行人工标注;
(2)对评论数据进行预处理,并从中提取单词级别特征、评论语义特征和评论结构特征,构建训练集;
(3)以单词级别特征、评论语义特征和评论结构特征为输入,利用训练集训练二元分类器;
(4)从相关电商网站获取目标商品的评论数据,提取目标商品评论数据的单词级别特征、评论语义特征和评论结构特征,输入到训练好的二元分类器对目标商品的属性进行识别。
2.根据权利要求1所述的跨平台电商欺诈行为检测方法,其特征在于,步骤(2)中,所述的单词级别特征包括平均积极词数量、平均消极词数量、平均高频n-gram词组含量和平均高频n-gram词组比例。
3.根据权利要求2所述的跨平台电商欺诈行为检测方法,其特征在于,平均积极词数量和平均消极词数量的提取方法,包括:
(a1)采用爬取的评论数据训练一个word2vec模型;
(a2)采用训练好的word2vec模型从评论数据中寻找与积极种子词相似的词语,构建积极词库;采用训练好的的word2vec模型从评论数据中寻找与消极种子词相似的词语,构建消极词库;
(a3)统计所述的评论数据中积极词和消极词的数量,计算平均积极词数量和平均消极词数量。
4.根据权利要求1所述的跨平台电商欺诈行为检测方法,其特征在于,步骤(2)中,所述的评论语义特征包括平均评论情感特征;所述平均评论情感特征的提取方法包括:
(b1)利用情感模型计算商品下每一条评论的情感值;
(b2)对该商品下所有评论的情感值取平均数,得到平均评论情感特征。
5.根据权利要求1所述的跨平台电商欺诈行为检测方法,其特征在于,步骤(2)中,所述的评论结构特征包括:平均标点数量、标点总量、平均评论熵、平均评论长度和评论总长度。
6.一种基于评论数据的跨平台电商欺诈行为检测系统,其特征在于,包括:
数据收集模块,从相关电商网站获取商品的评论数据;
语义分析模块,深度分析所述评论数据的语义信息;
特征提取模块,利用评论数据的语义信息,提取评论数据的单词级别特征、评论语义特征和评论结构特征;
欺诈检测模块,基于评论数据的单词级别特征、评论语义特征和评论结构特征,利用二元分类器判别该商品是否属于欺诈商品。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810815053.7/1.html,转载请声明来源钻瓜专利网。