[发明专利]一种基于自然语言处理的移动手机用户画像建立方法有效
申请号: | 202110644378.5 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113377912B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 李嘉晨;陆艺;徐晓冬;周建成 | 申请(专利权)人: | 南京光普信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535;G06V10/82;G06V20/40 |
代理公司: | 盐城市大丰区丰晟知识产权代理事务所(特殊普通合伙) 32454 | 代理人: | 葛潇敏 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 移动 手机用户 画像 建立 方法 | ||
1.一种基于自然语言处理的移动手机用户画像建立方法,其特征在于包括如下步骤:
步骤1,设定时间窗口,在数据库中提取各个用户在该时间窗口内使用移动应用的序列,作为移动应用使用序列;然后按照打开时间先后进行排序,并提取相对应的用户使用各个移动应用的时长,从而得到对应移动应用使用序列的使用应用时长序列;
步骤2,汇总所有用户的移动应用使用序列,将每个移动应用看作是一个文本词汇,利用word2vec模型进行训练,从而得到所有移动应用的特征向量,这些特征向量共同组成移动应用向量化模型;
步骤3,对于各移动应用使用序列,根据序列中前后移动应用的不同,动态调整移动应用的量化特征向量;
步骤4,运用自然断点算法,对每个移动应用序列进行切分,每个移动应用序列被拆分为一系列场景小片段;
步骤5,利用TFIDF算法计算显著性权重矩阵P1;
步骤6,利用重复法计算移动应用序列的时长权重矩阵P2;
步骤7,基于步骤3的量化特征向量Tnew,k、步骤5的显著性权重矩阵P1、步骤6的时长权重矩阵P2,利用下式计算移动应用使用序列的特征向量:
Tarray=P1P2[Tnew,k]n
步骤8,将步骤4的每个场景看作文章集中的一个自然段,计算每个小片段的特征向量,用som算法对这些小片段进行预训练,得到应该划分的聚类数目ck;
步骤9,使用Kmeans++算法,代入ck,对所有移动应用场景小片段进行聚类;然后使用HashingTF算法,估算每个类别各个移动应用的频次,计算在不同场景类别中各个移动应用的tgi值,给每个场景类别命名,以此作为衡量使用移动应用行为的标尺;
步骤10,再次使用som算法,对移动应用特征向量加权平均后代表序列的特征向量进行与训练,得到应该划分的聚类数目xk;
步骤11,使用Kmeans++算法,代入步骤10得到的聚类数目xk,进行聚类,至此,每个长序列都得到一个类别标签;
步骤12,结合步骤9输出的场景标尺,统计计算不同类别标签下移动应用使用序列的场景构成的tgi值,以此构建移动应用使用序列的场景偏好矩阵。
2.如权利要求1所述的方法,其特征在于:所述步骤3中,将移动应用使用序列中的各移动应用按照出现频次由高到低进行排序,并根据下式计算第k个移动应用的量化特征向量:
其中,k为排序后的移动应用的位置序号,k=1,2,3,…;Tk为第k个移动应用的特征向量;Ck表示第k个移动应用的权重;Tnew,k表示第k个移动应用的量化特征向量。
3.如权利要求1所述的方法,其特征在于:所述步骤3中,更新频次由高到低设定位次的移动应用量化特征向量,并优先对频次排位靠前的移动应用量化特征向量进行微调;在对排序靠后的移动应用进行适应性调整时,如果前后出现了频次排位靠前的移动应用,则使用已经调整结束的相对应量化特征向量,而非原始特征向量。
4.如权利要求1所述的方法,其特征在于:所述步骤4的具体内容是:首先对于对应时间序列上长时间的静默,直接进行第一次切割;然后,代入步骤3中的量化特征向量,计算前后移动应用对应的量化特征向量两两之间的欧式距离,得到距离序列,运用自然断点法找到距离突变点,进行第二次切割,将突变位置断开;至此,每个移动应用序列被拆分成一系列小片段。
5.如权利要求1所述的方法,其特征在于:所述步骤5中,具体先应用时长矩阵,将时长分若干组别,组别由小到大代表着时长的增长;将移动应用时序序列按时长组别进行重复处理,以此作为新的移动应用使用序列应用于TFIDF算法,得到显著性复合矩阵。
6.如权利要求1所述的方法,其特征在于:所述步骤10、11中,按月对用户的加权移动应用使用序列进行Kmeans++聚类,每个用户得到一个按月的行为类别标签序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京光普信息技术有限公司,未经南京光普信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110644378.5/1.html,转载请声明来源钻瓜专利网。