[发明专利]特定观影群体数据的提取及其处理方法有效

专利信息
申请号: 201610386130.2 申请日: 2016-06-03
公开(公告)号: CN106095839B 公开(公告)日: 2020-02-14
发明(设计)人: 莫倩;贾承斌;张传文;王恺 申请(专利权)人: 网智天元科技集团股份有限公司
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/951;G06F16/953;G06F16/9535
代理公司: 暂无信息 代理人: 暂无信息
地址: 850000 西藏自治区拉萨*** 国省代码: 西藏;54
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种数据的提取和处理方法,具体说是一种特定观影群体数据的提取及其处理方法。通过网络用户的身份信息和属性信息,筛选出目标群体,在通过这些目标群体做出的电影评论,经加权计算获得某一电影的用户观影指数。可用于指导影片的制作、宣传、发行等工作。
搜索关键词: 特定 群体 数据 提取 及其 处理 方法
【主权项】:
1.特定观影群体数据的提取方法,其特征在于包括如下步骤:/nA)数据的准备,从系统数据库或者网站抓取用户的个人信息及用户的属性信息,分别建立用户信息数据库(1)以及与之具有映射关系的用户属性信息数据库(2);/nB)非正常用户的过滤,首先从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库(3);然后在电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库中每一用户对任何电影的历史评论数据(4),采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户(5),并将非正常用户从特定群体的用户个人信息库中剔除;/nC)用户的标记,从网络资源中抓取特定群体的用户个人信息库中每一用户的社交对象的属性信息(6),选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用户(7),重复该步骤,直到特定群体的用户个人信息库中的全部用户筛选完毕;/nD)用户状态的标记,从网络资源中获取入选特定群体用户的活动状态信息,选择其中活动状态符合活动规律的用户,将其标注为特定群体的活跃用户(8);/nF)重复账号的合并,对于特定群体的活跃用户,比对其用户个人信息,对于符合一致性判断标准的用户,定义为重复账号,将重复账号对应的多个特定群体的活跃用户合并为一个,直到全部特定群体的活跃用户对应的用户属性信息均符合单一性判断标准,并将这些特定群体的活跃用户信息存入样本用户数据库;/nG)使用样本用户数据库的信息替换用户个人信息库中的信息,重复上述步骤C)——步骤F),直到步骤F)无法找到重复账号;/nH)获取样本用户数据库中每一特定群体的活跃用户发布的电影评论信息,并将该电影评论信息的各种指标量化,得到该用户的量化信息表,全体特定群体的活跃用户的量化信息表构成量化信息库(9);/n所述用户的个人信息是用于识别用户身份的信息或者代码,包括用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种;所述用户的属性信息是指用于区分用户人群的特征信息,包括年龄、性别、职业、爱好、受教育程度、国籍、宗教信仰、党派团体、语种、血型、肤色中的一种或多种;/n在步骤B),所述用户对任何电影的历史评论数据(4)包括评价对象的名称、评价对象的种类、评价内容、做出评价的时间、评价内容的字符数量、评价的次数;/n在步骤D),所述用户的活动规律是指用户上网时间段的分布规律,以及用户做出评价的时间段的分布规律;/n在步骤F),所述将重复账号对应的多个特定群体的活跃用户合并为一个是指将多个个人信息合并后形成新的个人信息,同时将多个属性信息合并后形成新的属性信息;所述一致性判断标准是指用户个人信息中用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种具有一致性或相关性;/n在步骤H),所述电影评论信息的各种指标包括但不限于类型、演员、导演、国家、制式、日期,所述指标量化是指将电影评论中有关上述指标的信息判断为匹配和不匹配两种结果,并将每种结果给与特定的加权值;/n从量化信息库(9)中提取活跃用户的量化信息表制定该活跃用户的观影特征模型,所述量化信息库(9)是符合特定观影群体特征的一组人群以及与之相关的电影评论信息的集合;将该活跃用户的电影评论信息与观影特征模型比对,利用加权算法得到该活跃用户对电影的关注度数值,将量化信息库(9)中全部活跃用户对同一部电影的关注度数值相加,得到特定观影群体对该电影的关注度;/n所述电影评论信息至少包括类型、演员、导演、国家、制式、档期几个指标,所述加权算法是用如下公式获得该特定群体的活跃用户对电影的关注度,A=(2(g+s+r+c+t+d)-(Gg+Ss+Rr+Cc+Tt+Dd))*X,/n其中/nA是该特定群体的活跃用户对电影的关注度/nG表示类型是否匹配,1代表匹配,0代表不匹配,g代表权值/nS表示演员是否匹配,1代表匹配,0代表不匹配,s代表权值/nR表示导演是否匹配,1代表匹配,0代表不匹配,r代表权值/nC表示国家是否匹配,1代表匹配,0代表不匹配,c代表权值/nT表示制式是否匹配,1代表匹配,0代表不匹配,t代表权值/nD表示档期是否匹配,1代表匹配,0代表不匹配,d代表权值/nX代表电影评价的量化分值。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网智天元科技集团股份有限公司,未经网智天元科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610386130.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top