[发明专利]特定观影群体数据的提取及其处理方法有效
申请号: | 201610386130.2 | 申请日: | 2016-06-03 |
公开(公告)号: | CN106095839B | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 莫倩;贾承斌;张传文;王恺 | 申请(专利权)人: | 网智天元科技集团股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/951;G06F16/953;G06F16/9535 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 850000 西藏自治区拉萨*** | 国省代码: | 西藏;54 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种数据的提取和处理方法,具体说是一种特定观影群体数据的提取及其处理方法。通过网络用户的身份信息和属性信息,筛选出目标群体,在通过这些目标群体做出的电影评论,经加权计算获得某一电影的用户观影指数。可用于指导影片的制作、宣传、发行等工作。 | ||
搜索关键词: | 特定 群体 数据 提取 及其 处理 方法 | ||
【主权项】:
1.特定观影群体数据的提取方法,其特征在于包括如下步骤:/nA)数据的准备,从系统数据库或者网站抓取用户的个人信息及用户的属性信息,分别建立用户信息数据库(1)以及与之具有映射关系的用户属性信息数据库(2);/nB)非正常用户的过滤,首先从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库(3);然后在电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库中每一用户对任何电影的历史评论数据(4),采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户(5),并将非正常用户从特定群体的用户个人信息库中剔除;/nC)用户的标记,从网络资源中抓取特定群体的用户个人信息库中每一用户的社交对象的属性信息(6),选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用户(7),重复该步骤,直到特定群体的用户个人信息库中的全部用户筛选完毕;/nD)用户状态的标记,从网络资源中获取入选特定群体用户的活动状态信息,选择其中活动状态符合活动规律的用户,将其标注为特定群体的活跃用户(8);/nF)重复账号的合并,对于特定群体的活跃用户,比对其用户个人信息,对于符合一致性判断标准的用户,定义为重复账号,将重复账号对应的多个特定群体的活跃用户合并为一个,直到全部特定群体的活跃用户对应的用户属性信息均符合单一性判断标准,并将这些特定群体的活跃用户信息存入样本用户数据库;/nG)使用样本用户数据库的信息替换用户个人信息库中的信息,重复上述步骤C)——步骤F),直到步骤F)无法找到重复账号;/nH)获取样本用户数据库中每一特定群体的活跃用户发布的电影评论信息,并将该电影评论信息的各种指标量化,得到该用户的量化信息表,全体特定群体的活跃用户的量化信息表构成量化信息库(9);/n所述用户的个人信息是用于识别用户身份的信息或者代码,包括用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种;所述用户的属性信息是指用于区分用户人群的特征信息,包括年龄、性别、职业、爱好、受教育程度、国籍、宗教信仰、党派团体、语种、血型、肤色中的一种或多种;/n在步骤B),所述用户对任何电影的历史评论数据(4)包括评价对象的名称、评价对象的种类、评价内容、做出评价的时间、评价内容的字符数量、评价的次数;/n在步骤D),所述用户的活动规律是指用户上网时间段的分布规律,以及用户做出评价的时间段的分布规律;/n在步骤F),所述将重复账号对应的多个特定群体的活跃用户合并为一个是指将多个个人信息合并后形成新的个人信息,同时将多个属性信息合并后形成新的属性信息;所述一致性判断标准是指用户个人信息中用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种具有一致性或相关性;/n在步骤H),所述电影评论信息的各种指标包括但不限于类型、演员、导演、国家、制式、日期,所述指标量化是指将电影评论中有关上述指标的信息判断为匹配和不匹配两种结果,并将每种结果给与特定的加权值;/n从量化信息库(9)中提取活跃用户的量化信息表制定该活跃用户的观影特征模型,所述量化信息库(9)是符合特定观影群体特征的一组人群以及与之相关的电影评论信息的集合;将该活跃用户的电影评论信息与观影特征模型比对,利用加权算法得到该活跃用户对电影的关注度数值,将量化信息库(9)中全部活跃用户对同一部电影的关注度数值相加,得到特定观影群体对该电影的关注度;/n所述电影评论信息至少包括类型、演员、导演、国家、制式、档期几个指标,所述加权算法是用如下公式获得该特定群体的活跃用户对电影的关注度,A=(2(g+s+r+c+t+d)-(Gg+Ss+Rr+Cc+Tt+Dd))*X,/n其中/nA是该特定群体的活跃用户对电影的关注度/nG表示类型是否匹配,1代表匹配,0代表不匹配,g代表权值/nS表示演员是否匹配,1代表匹配,0代表不匹配,s代表权值/nR表示导演是否匹配,1代表匹配,0代表不匹配,r代表权值/nC表示国家是否匹配,1代表匹配,0代表不匹配,c代表权值/nT表示制式是否匹配,1代表匹配,0代表不匹配,t代表权值/nD表示档期是否匹配,1代表匹配,0代表不匹配,d代表权值/nX代表电影评价的量化分值。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网智天元科技集团股份有限公司,未经网智天元科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610386130.2/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置