[发明专利]一种基于深度学习的艾滋病人员行为分析方法有效
申请号: | 201910517313.7 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110321424B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 李巧勤;王志华;朱俊林;陆佳鑫;刘勇国;杨尚明 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F16/2458;G06F16/28;G06F16/29;H04L29/08;G16H50/80 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 马超前 |
地址: | 610054 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 艾滋病 人员 行为 分析 方法 | ||
1.一种基于深度学习的艾滋病人员行为分析方法,其特征在于,具体步骤包括:
采集用户行为数据;
基于用户行为数据,分析用户多维时空信息,构建用户行为画像;
所述用户行为数据包括浏览器网址、网络浏览IP地址信息、地理位置信息和社交通信信息;
所述基于用户行为数据,分析用户多维时空信息,构建用户行为画像,包括网络行为分析、地理位置行为分析和社交通信行为分析;
所述网络行为分析,具体为:
对于网络浏览IP地址,使用通用全文爬虫架构获取各网址内容,选择聚类中心作为文章的关键词,使用word2vec计算k-means聚类过程中的词间相似度,关键词的提取过程如下:
第一步:通过jieba分词工具对语料进行分词,根据停用词表去除停用词;
第二步:合并词串,词语之间用空格分割;训练word2vec获得词向量;
第三步:新输入文本,对处理好的词进行k-means聚类,在聚类过程中使用word2vec训练出的词向量计算两个词之间的距离,最后选择每个类别中距离聚类中心最近的词作为关键词;同时作为补充,添加敏感词发现方法,基于TF-IDF分析统计关键词频,对比艾滋语料库捕获出现频率低却属于特定敏感信息的词语;
基于上述关键词挖掘分析与特定关键词语捕获,可获得艾滋病员网络行为分析结果;
所述地理位置行为分析,具体为:
获取艾滋病志愿者GPS信息与对应的时间维度,基于DBSCAN算法聚类分析地理位置聚类中心,根据地理位置聚类中心辐射200米,获取周围地理位置信息;
聚类结果可得到多人群情况下个人聚类中心与辐射区域,辐射区域覆盖面越高,表示艾滋病员群活动越密集;
基于挖掘结果得到艾滋病员活动区域,根据活动区域的特征属性表示,对比分析网络行为属性与活动区域属性,使用相似性度量集合关联分析区域属性与用户个人信息属性,挖掘基于地理位置的用户行为方式与艾滋病地理传播、传播时间的关系。
2.根据权利要求1所述的基于深度学习的艾滋病人员行为分析方法,其特征在于,所述基于地理位置的用户行为方式与艾滋病地理传播关系的挖掘,具体为:
基于用户网络行为与地理位置聚类分析,使用LSTM网络分别学习行为分析与地理位置的多维表示;基于向量空间模型将每个对象的多维表示关联聚集以综合表示,以此类推,获取群体对象网络行为分析与用户地理位置分析的多维表示;通过空间向量夹角的余弦值来计算相似性,可以获得艾滋人群与非艾滋人群的空间多维综合表示相似度,挖掘基于地理位置的用户行为方式与艾滋病传播关系。
3.根据权利要求1或2所述的基于深度学习的艾滋病人员行为分析方法,其特征在于,所述基于地理位置的用户行为方式与艾滋病传播时间关系的挖掘,具体为:
基于用户网络行为与地理位置聚类分析,使用LSTM网络分别学习变长时间维度下行为分析与地理位置的多维表示,获得不同时间维度对应下的网络行为与地理位置关系,挖掘基于地理位置的用户行为方式与艾滋病传播时间关系。
4.根据权利要求3所述的基于深度学习的艾滋病人员行为分析方法,其特征在于,所述社交通信行为分析,具体为:
每个艾滋病人作为一个社区网络节点,对存在通话联系的两个节点建立边关系;基于多局部社区检测算法,根据社交通信统计分析将信息嵌入社区网络,生成局部具有重叠性质的社交网络,建立艾滋病人社交通信行为网络,通过社区网络分析各成员家庭、社会交往关系,以采取精准化干预措施,做好艾滋疾病防控;
基于通话行为的多局部社区发现的具体算法步骤为:
第一步:根据给定的用户属性和通话记录表,统计以下数据:每个节点的总通话时间、总通话数量,每条边的总通话时间、总通话数量,以及主被叫作为用户统计属性;
第二步:每个用户作为一个网络节点,构建节点间边的带权无向图,其边权值的计算方法与通话记录存在关联;
同时考虑通话时间、通话地点、通话数量、主被叫属性;在通话记录网络中,根据节点之间的相似性计算边的权值,同时将用户相似度作为边权值的因素之一,通过多元Logistic回归分析,以计算不同属性之间的边权值;
第三步:基于余弦相似度计算不同通话之间的相似度,以相似度聚类,构建基于用户通话行为的局部多重叠社交通信网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910517313.7/1.html,转载请声明来源钻瓜专利网。