[发明专利]一种基于短文本的用户兴趣分类方法在审
申请号: | 201711452259.X | 申请日: | 2017-12-26 |
公开(公告)号: | CN109189880A | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 万迅 | 申请(专利权)人: | 爱品克科技(武汉)股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35 |
代理公司: | 深圳市港湾知识产权代理有限公司 44258 | 代理人: | 微嘉 |
地址: | 430000 湖北省武汉市东湖高新技术开发区*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 针对用户兴趣分类建模问题,提出一种在HerPink平台上短文本数据集上建立用户兴分类趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析短文本结构和内容的基础上,给出短文本重构概念,根进行文本内容的扩展,从而扩充原始的特征信息。利用分词工具将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣分类模型的表示机制。结果表明,短文本重构和概念映射提高了聚类效果,表明构建的用户兴趣分类模型具有较好的性能。 | ||
搜索关键词: | 短文本 用户兴趣 重构 分类模型 映射 聚类 分类建模 数据稀疏 特征信息 文本内容 文本向量 概念层 数据集 特征词 分类 分词 构建 集合 抽象 文本 缓解 分析 | ||
【主权项】:
1.一种基于短文本的用户兴趣分类方法,其特征在于,包括如下步骤:(1)HerPink平台用户短文本的字数有限制,所以文本属于短文本范畴。由于单条字数较少,所含特征信息较少,难以承担起刻画用户兴趣分类的重任,因此必须采取一定的策略丰富的内容。就客语料来说,其具有的自身结构特点是,文本间的相关联系特性。这里的文本包含用户所发表、转发和评论的信息内容。用户所发表或转发的可能具有相应的评论,那么这条被发表或转发的文本与其相对应的评论文本集之间就具有相互关联的性质;(2)由于用户所发短文本内容信息较少,短文本含特征不够明显,因此想用一种解决方法,能够使得每条短文本的特征信息增加;正是由于短文本之间具有相关联性,在一条的所有相关联的短文本中,原短文本的关键词会被重复提及并且与主题相关的其他词数量也会增加;针对这个特征,可以将用户所发表或转发的短文本通过其相关联的评论短文本集进行扩展;同样的,用户所发表的评论短文本也通过所属的短文本及该相应的其他评论文本进行扩充。本发明将用户兴趣识别问题转化为传统的分类问题,即根据用户U的兴趣特征向量Uv={x1,x2,x3….,xn}和功能函数f,判断用户的兴趣类别Y={y1,y2,y3….,yi},记为f(UX)‑>Y,其中yi代表用户的兴趣类别。本发明提出一种新的用户兴趣特征表达方式:给定某个用户U,假设其在特定时间段内在中发布的图片集合为I={i1,i2,i3…,in},n表示图片的数量,对于每一张图片i,包含多种不同的概念和对象(可以作为图像语义的表征),可以用已有的图像语义识别技术识别这些概念及对象的特征集合F={f1,f2,f3,…,fj,...,fm},m为特征数,fj表示该图像包含语义概念j的概率。同样的,假如在某一时间段内该用户发布的文本集合为D={d1,d2,d3,…,dp},p表示文本的数量;假设文本D的长度为s,即这个用户发布的所有包含s个词(利用过滤算法对文本进行过滤后保留有价值的特征文本)那么D={W1,W2,W3,…,Ws},对于文本中的每一个词都可以用词向量表示,能够更好的利用句法和语义特征,最后文本句向量表示为V(D)=V(W1)+V(W2)+…+V(WS),用于下一步基于词向量特征的微文本本分类。对于标签数据,T={t1,t2,t3,…,tq},q表示标签的数量(每个用户不止一个标签),通过每个不同的标签分解成空间向量模型的方法来构建标签的特征表达。最后,不同兴趣类别用户分享图片的概念特征分布不同,发布的文本不同,用户标签不同,故可据此预测其不同的兴趣。(3)假设S={s1,s2,s3….,sn}代表用户所有发布、转发和评论的集合。其中,sj:,tj为第i条的短文本;Ri为其相关联的短文本集合;rj∈Ri。设L={l1,l2,l3…,ln}为重构之后的集合,lj:。其中,Di表示ti与Ri重构之后形成的文本;Ei表示ti中提取的主题和特殊用户代表的特征项及相应权值的集合,ej∈Ej,ej:,Wj的计算公式为:
其中,ρ为加权系数;freq(tij)为特征项Tj在集合Ei中各元素属性T中出现的频率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于爱品克科技(武汉)股份有限公司,未经爱品克科技(武汉)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711452259.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种人群热力图获得方法及装置
- 下一篇:人机交互方法及智能机器人