[发明专利]基于多模混合深度学习的ICO项目欺诈自动判别方法在审
申请号: | 201811535291.9 | 申请日: | 2018-12-14 |
公开(公告)号: | CN109658245A | 公开(公告)日: | 2019-04-19 |
发明(设计)人: | 黄步添;刘振广;王从礼;杨红星;石太彬;俞之贝 | 申请(专利权)人: | 杭州云象网络技术有限公司 |
主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06Q40/06;G06Q30/00;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 王琛 |
地址: | 311121 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 欺诈 自动判别 层次化 多模 学习 多模信息 监管部门 特征输入 项目特征 训练样本 资金损失 自动预警 新项目 构建 抽取 输出 网络 帮助 | ||
1.一种基于多模混合深度学习的ICO项目欺诈自动判别方法,包括如下步骤:
(1)抽取ICO项目的多模信息作为特征输入,所述ICO项目包括已有的ICO项目以及需要判别的ICO项目;
(2)构建层次化的深度学习网络模型,基于当前已有的ICO项目特征作为训练样本对该深度学习网络模型进行训练;所述深度学习网络模型从输入到输出依次由layer1层、LSTM、layer2层、layer3层、两个全连接层以及Softmax层依次连接构成;
(3)将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,输出即为该ICO项目的欺诈性判别结果,输出结果为0则表示该ICO项目判别为欺诈项目,输出结果为1则表示该ICO项目判别为非欺诈项目。
2.根据权利要求1所述的ICO项目欺诈自动判别方法,其特征在于:所述步骤(1)的具体实现过程如下:
1.1将ICO项目相关信息组织成三种类别:项目基本信息、GitHub代码信息和白皮书信息;
1.2整合项目基本信息,并抽取该类信息的特征向量作为第一类特征向量;
1.3统计ICO项目在GitHub中的代码文件个数、代码长度、最长代码文件长度、最短代码文件长度、平均代码文件长度、代码文件长度的方差、代码被查看次数作为人工提取的特征向量,即第二类特征向量;
1.4使用章节将白皮书信息切分为多段,利用Doc2Vec模型将每一段抽取为300维的向量,抽取后得到的多个向量按照其对应段在白皮书中的顺序进行排列组成有序向量,同时统计白皮书的词数、平均词长度、章节数、词长方差、前50个高频词的出现次数作为人工提取的特征向量,即第三类特征向量。
3.根据权利要求2所述的ICO项目欺诈自动判别方法,其特征在于:所述项目基本信息包括项目所属类别、项目简介、项目拟融资金额、项目虚拟币分配方案、项目核心团队、项目关键字,项目所属类别包括金融服务、博彩、医疗、社交网络、娱乐、保险、区块链底层平台技术、宗教、支付、其他,项目核心团队为项目排名前20的核心成员,项目关键字为排名前5的关键词;对于项目简介则利用开源项目Gensim的Doc2Vec模型进行抽取得到300维的向量,对于项目关键字则利用开源项目Gensim的Word2Vec模型进行抽取得到5个20维的向量,进而将这两部分向量排列组成有序向量;项目所属类别、项目拟融资金额、项目虚拟币分配方案、项目核心团队均使用人工提取的方法得到对应的特征向量。
4.根据权利要求2所述的ICO项目欺诈自动判别方法,其特征在于:所述项目基本信息的特征向量包括基于项目简介、关键词提取的有序向量以及基于人工提取的特征向量,其中有序向量通过layer1层顺序输入至对应的LSTM,人工提取的特征向量与对应layer2层的输出连接后输入至layer3层。
5.根据权利要求2所述的ICO项目欺诈自动判别方法,其特征在于:所述GitHub代码信息的特征向量仅包含人工提取的特征向量,其直接输入至layer3层,layer3层的输出经过两个全连接层和一个Softmax层输出分类结果的概率分布。
6.根据权利要求2所述的ICO项目欺诈自动判别方法,其特征在于:所述白皮书信息的特征向量包括基于白皮书文档提取的有序向量以及基于人工提取的特征向量,其中有序向量通过layer1层顺序输入至对应的LSTM,人工提取的特征向量与对应layer2层的输出连接后输入至layer3层。
7.根据权利要求1所述的ICO项目欺诈自动判别方法,其特征在于:所述步骤(2)的具体实现过程如下:
2.1对于发行时间距今超过一年的ICO项目,将每个ICO项目关于项目基本信息、GitHub代码信息和白皮书信息的三类特征向量作为输入,使用深度学习网络模型进行有监督训练;
2.2对于有监督训练中的标签设置方法为:若ICO项目在发行一年后失败或一年后价格变得低于发行价的0.2%,则认为该项目为欺诈项目,设置标签为0,否则设置标签为1。
8.根据权利要求1所述的ICO项目欺诈自动判别方法,其特征在于:所述步骤(3)中将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,Softmax层输出该ICO项目为欺诈和非欺诈项目的概率,如欺诈概率高于非欺诈概率则最终输出结果为0,否则最终输出结果为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州云象网络技术有限公司,未经杭州云象网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811535291.9/1.html,转载请声明来源钻瓜专利网。