[发明专利]一种基于文本的性格数据分析方法及系统有效
申请号: | 201710553081.1 | 申请日: | 2017-07-07 |
公开(公告)号: | CN109254993B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 李唳天 | 申请(专利权)人: | 掌沃云科技(北京)有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06Q30/02 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 任漱晨 |
地址: | 100027 北京市朝阳区工人*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 性格 数据 分析 方法 系统 | ||
本申请提供了一种基于文本的性格数据分析方法和系统,所述方法包括:通过源数据模块部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据;通过分词模块对所述源数据进行分词处理,并标注词性,得到未整理的元数据库;通过维度评分模块对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3;根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,通过判定模块判定所述性格分析数据对应主体的性格归属。本申请基于文本信息将复杂的现实要素降到三个维度进行分析,以三个维度来分析人们的个体或群体性格,能够根据少量样本,对整体特征进行预测。
技术领域
本申请涉及数据分析技术领域,特别地,涉及一种基于文本的性格数据分析方法和系统。
背景技术
信息化社会背景下,基于互联网及移动互联网产生的在线沟通日益成为人与人之间沟通的主要方式,也成为人们获取信息、做出判断、表达自我的核心方式,更逐渐成为掌握、预测个体未来思想发展及群体舆论发酵的方式。
最接近的现有技术是基于大数据的用户画像构建技术。用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作是给用户贴“标签”,而标签是通过对用户信息进行分析得出的高度精炼的特征标识。用户画像可用来精准营销,分析产品潜在客户,针对特定群体利用短信、邮件等方式进行营销;还可以用来用户的统计排名,比如统计中国大学购买书籍人数TOP10、全国各城市奶爸指数等;还可以用来进行效果评估、完善产品运营、提升服务质量等;还可以对服务或产品进行私人定制,即通过个性化的服务某类群体甚至每一位用户。如某公司想推出一款面向5-10岁儿童的玩具,通过用户画像进行分析,发现形象=“喜洋洋”、价格区间=“中等”的偏好比重最大,那么就可以给公司的新产品开发提供非常客观的决策依据。
其技术方案参照图1。
基础数据收集大致分为网络行为数据、服务内行为数据、用户内容偏好数据和用户交易数据四大类。
网络行为数据包括:活跃人数、页面浏览量、访问时长、激活率、外部触点、社交数据等;
服务内行为数据包括:浏览路径、页面停留时间、访问深度、唯一页面浏览次数等;
用户内容偏好数据包括:浏览/收藏内容、评论内容、互动内容、生活形态偏好、品牌偏好等;
用户交易数据(限交易类服务)包括:贡献率、客单价、连带率、回头率、流失率等。
在基础数据收集时收集到的数据不会是100%准确的,都具有不确定性。这就需要后续的行为建模来对收集到的数据进行再判断。比如某用户的性别一栏填的“男”,但通过其行为偏好可判断其性别为“女”的概率为80%。
同时,储存用户行为数据时同时储存发生该行为的场景,以便更好地进行数据地分析。
行为建模阶段是对基础数据收集阶段收集到的数据的处理,进行行为建模,以抽象出用户的标签。这个阶段注重的应是大概率事件,通过数学算法模型尽可能地排除用户的偶然行为。这时要用到机器学习,对用户的行为、偏好进行猜测,类似y=kx+b的算法,x代表已知信息,y代表用户偏好,通过不断精确k 和b来精确y。
这个阶段需要用到很多模型给用户贴“标签”。如用户汽车模型,根据用户对“汽车”话题的关注或购买相关产品的情况来判断用户是否有车、是否准备买车;再如用户忠诚度模型,通过判断+聚类算法判断用户的忠诚度;再如身高体型模型,根据用户购买服装鞋帽等用品来判断;再如文艺青年模型,根据用户发言、评论等行为判断用户是否为文艺青年;用户价值模型,判断用户对于网站的价值,对于提高用户留存率非常有用。还有消费能力、违约概率、流失概率等诸多模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌沃云科技(北京)有限公司,未经掌沃云科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710553081.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置