[发明专利]一种基于比特币交易时序序列相似性的用户聚类方法在审
申请号: | 201911143149.4 | 申请日: | 2019-11-20 |
公开(公告)号: | CN111104571A | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 郑子彬;蔡岳 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62;G06Q20/06;G06Q40/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 比特 交易 时序 序列 相似性 用户 方法 | ||
本发明公开一种基于比特币交易时序序列相似性的用户聚类方法,包括采集地址交易数及其交易额构造并拼接交易向量生成地址交易时序序列;采用滑窗填零方式将地址B和地址A的交易时序序列调整为等长;针对每种滑窗填零方式计算地址B与地址A的交易时序序列的余弦相似度;选取K个地址作为初始质心,将除质心外的其他地址加入与其余弦相似度最大的质心形成K个初始集合;计算初始集合中地址与其质心的余弦相似度和选择集合内余弦相似度和最大点为新质心并更新初始质心,以新质心形成新集合,新集合更新初始集合,重新计算设置相似度偏差阈值Y,迭代更新直至得到K个最终集合。本发明为比特币交易网络提供的聚类集合,更利于描给用户画像。
技术领域
本发明涉及区块链领域,尤其涉及一种基于比特币交易时序序列相似性的用户聚类方法。
背景技术
随着区块链技术的普及和发展,基于区块链衍生的产品越来越多。其中,数字货币是区块链领域非常重要的产物之一,同时,比特币作为数字货币的代表,也备受关注,吸引了商户,个人等不同类型的用户进行比特币交易。比特币由于其匿名化的特点深受欢迎,但是从宏观的角度,对于比特币交易的监管也十分重要,因为比特币交易网络中不仅有正常合理的交易用户,同时也藏匿着赌博,洗钱等不正常的用户的交易行为。因此,利用比特币交易网络的数据进行用户识别十分重要。
随着机器学习技术的发展以及区块链技术的进一步普及,业务人员希望通过利用机器学习的技术,对已有的比特币交易数据进行挖掘建模,以更准确地刻画比特币交易网络中的用户画像,有利于对比特币交易的监管和把控。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种基于比特币交易时序序列相似性的用户聚类方法。
本发明旨在至少在一定程度上解决上述技术问题。
为了达到上述技术效果,本发明的技术方案如下:
一种基于比特币交易时序序列相似性的用户聚类方法,包括:
S10采集在预设时序段内以地址输入交易的交易数及其交易额、地址输出交易的交易数及其交易额,构造地址在预设时序段的交易向量,拼接地址在预设时序段的所有交易向量生成地址在预设时序段的交易时序序列;
S20采用滑窗填零方式将地址B交易时序序列调整为地址A交易时序序列的等长;
S30针对每种滑窗填零方式计算地址B与地址A的交易时序序列的余弦相似度VAR,并将其初始值记为VARold;
S40选取K个地址作为初始质心,遍历除了这K个质心之外的全部地址获取每个地址与质心的最大余弦相似度,并将每个地址加入与其具有余弦相似度的质心形成初始集合,由此得到K个初始集合;
S50分别计算每个集合中全部点与其质心的余弦相似度和i为K个集合的当前集合;
S60对于K个初始集合,选择与集合内的其他点余弦相似度和最大的点作为新质心,新质心更新初始质心,返回S40形成新集合,新集合更新初始集合,将赋值给VARold,重新计算设置相似度偏差阈值Y,循环上述步骤并迭代更新,直至得到K个最终集合。
优选地,所述余弦相似度计算公式如下:
其中Sim(A,Bu)表示地址A和地址Bu的欧式距离,CosSim(A,Bu)为以地址Bu的交易时序序列与地址A的交易时序序列的余弦距离,即为地址Bu和地址A的余弦相似度,Bu表示地址B的滑窗填充序列,u为滑窗填零方式种数,t为滑窗填充后的等长交易时序序列的长度,v代表在计算余弦相似度的时候需要遍历或被遍历地址的交易时序序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911143149.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于确定电线位置的方法和设备以及存储介质
- 下一篇:一种多功能AI腕表