[发明专利]一种识别IPTV用户是家庭用户的方法有效
申请号: | 201310222532.5 | 申请日: | 2013-06-06 |
公开(公告)号: | CN103345473A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 杨燕;范娜;潘云;杜泽宇;杨河彬;王伟杰 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海蓝迪专利事务所 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 iptv 用户 家庭 方法 | ||
技术领域
本发明涉及IPTV推荐系统领域,具体地说是一种通过离群检测,计算用户评分区间与区间之间距离,来确定当前用户是家庭用户还是个体用户的方法。
背景技术
IPTV是多个用户共同操控的终端,多人的访问数据,会存储于同一个IPTV机顶盒中。应用传统的推荐算法,虽然会产生推荐,却不能产生诸如对“这个用户是不是多个人组成的家庭用户?”“这个家庭喜欢什么类型的节目?”“这个家庭大概由几个人组成”等这些问题的分析,在此基础上所提供的个性化服务是不能满足所有的要求的。
IPTV数据来源有两种:第一种是全家人的观看记录都包含在同一个机顶盒中;另外一种是IPTV的使用者只是一位用户,机顶盒的数据就是这一个用户单独产生的。区分当前使用IPTV的用户是家庭用户还是个体用户对提高推荐的准确性非常重要。因此需要通过对IPTV中家庭用户的群组识别,来解决这个问题。
目前来讲,在数据挖掘领域对群组的发掘工作可以从两方面进行——聚类和离群。聚类方法的目的是将数据分类,在已知分类标准的前提下,将众多数据分为满足不同规律的群组;而离群,是挖掘数据的过程,整个数据集是一个整体,要找到在整个对象中有明显差异的个体,这样就自然的将一个大的群组分为互相独立的两个部分。预测和发现离群点具有非常重要的意义,IPTV中的家庭用户满足离群的特点,因此可以使用离群方法进行家庭用户的挖掘。
目前离群数据挖掘的方法主要有以下三种:
1、基于统计的离群数据发现方法
这种方法要求事先要知道数据集合参数(例如假定的数据分布)、分布参数( 例如均值、标准差)和预期的离群数据的个数,而这些信息在应用中一般是不可知的,这类方法的绝大多数的应用是针对数值型数据,较难对高维数据、分类数据、周期性数据进行发掘。
2、基于距离的离群数据发现方法
基于距离的离群数据(distance-based),它是指需要知道对象之间的距离,观察对象之间距离的大小,试图找到一些在距离上远于其他对象的点集。这种方法适用于在海量数据中进行离群的检验,由于可以用抽样的方法来计算对象间的距离,因此复杂度较低。
3、基于偏移的离群数据发现方法
这种方法可以对各种情况下的数据进行检验,但要事先知道数据的特征并确定互斥度函数,所以在实际问题中较难使用。
发明内容
本发明的目的是针对IPTV中家庭用户无法确定的问题而提供的一种高效率识别当前用户是家庭还是个体用户的方法。通过此方法挖掘出的家庭用户,应该更贴近实际情况,并较其他群组发现方法的准确度更高。所谓高效率是指在家庭用户发现的过程中,挖掘结果更准确,所需的时间空间代价更低。
实现本发明目的的具体技术方案是:
一种识别IPTV用户是家庭用户的方法,首先通过用户对节目的隐式评分来代表用户对节目的喜好程度。由于节目众多,需要把用户对单一节目的评分扩展到用户对一类节目的评分区间,这样可以从一定高度上表达用户的整体喜好。然后定义区间之间的距离的计算公式,并计算区间距离;最后发现离群点:提出基于区间距离的离群点发现方法,若离群点存在,则当前分析的用户为家庭用户。其具体方法描述如下:
第一步:从IPTV数据集中,计算“用户浏览节目时长“与”节目总时长”的比值,得到用户对节目的隐式评分,代表用户对单个节目的喜好程度;
第二步:对30天(一个月)的IPTV数据进行周期数据划分,3天为一个周期,得到Period=10个周期的数据;
第三步:统计IPTV数据集中的节目类别,得到节目类别数目Type;结合第二步,得到当前用户在Period=10个周期中,对所有Type类节目的评分矩阵X,如下式:
其中,代表在第Period周期中,用户对所有类别节目的评分矩阵,代表在第Period周期中,用户对第Type类节目的评分矩阵,代表用户在第Period周期中,用户对第Type类节目评分的最小值,代表用户在第Period周期中,用户对第Type类节目评分的最大值。
第四步:定义任意两个区间向量之间的距离公式,其中X和Y分别代表任意两个类型的区间向量:
;
第五步:从矩阵X中,随机抽取NUM个评分子集(也叫做RateSubSet),每一个维度的评分叫做周期类别评分(CTR);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310222532.5/2.html,转载请声明来源钻瓜专利网。