[发明专利]一种基于短文本的用户兴趣分类方法在审
申请号: | 201711452259.X | 申请日: | 2017-12-26 |
公开(公告)号: | CN109189880A | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 万迅 | 申请(专利权)人: | 爱品克科技(武汉)股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35 |
代理公司: | 深圳市港湾知识产权代理有限公司 44258 | 代理人: | 微嘉 |
地址: | 430000 湖北省武汉市东湖高新技术开发区*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短文本 用户兴趣 重构 分类模型 映射 聚类 分类建模 数据稀疏 特征信息 文本内容 文本向量 概念层 数据集 特征词 分类 分词 构建 集合 抽象 文本 缓解 分析 | ||
针对用户兴趣分类建模问题,提出一种在HerPink平台上短文本数据集上建立用户兴分类趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析短文本结构和内容的基础上,给出短文本重构概念,根进行文本内容的扩展,从而扩充原始的特征信息。利用分词工具将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣分类模型的表示机制。结果表明,短文本重构和概念映射提高了聚类效果,表明构建的用户兴趣分类模型具有较好的性能。
技术领域
本申请涉及信息处理技术领域,尤其涉及一种短文本用户兴趣分类方法。
背景技术
通过后台数据库对文本进行获取,对于文本预处理部分,使用Python自 带的jieba对文本进行分词,然后去除停用词、计算TFIDF特征权值、抽取特 征项形成文本的特征向量空间,最后通过SVM进行用户兴趣分类,进行分类 评价。
发明内容
向量空间模型VSM是关于文本表示的模型。它将文本表示的基本单位定 义为由字、词或短语构成的特征项,所有特征项构成特征项集。每个文档由一 个维数等于特征项集个数的向量构成,该向量的每个分量是特征项在文档中 出现的次数。具体定义如下:设文档集为A={ai},集合A中元素的个数为S; 特征项集T={ti},集合T中元素的个数为M;定义特征项ti在文档中权重Wij 为:
Wij=tfij/af j 1≤i≤S,1≤j≤M
其中tfij为特征项ti在文档ai中出现的频率,称为项频;afj是文档集D中 出现的特征项ti的文档数量,称为文档频率。在此基础上构建文档的向量空间 模型,以t1,t2,…,tM为坐标轴,将文档ai表示为M维向量 (Wi1,Wi2,…,WiM),则ai、aj间相似度sim(ai,aj)为:
其中:1≤i≤S,1≤j≤M
此时检索文档X与用户目标文档Y的相似度即为sim(X,Y),选取满足 预定阈值要求的文档就可得到按相似度由大到小排列的满足用户需求的检索 文档。
附图说明
图1为本申请一示例性实施例提供的一种短文本用户兴趣分类方法的架 构意图。
具体实施方式
1、对文本分类质量的评定主要通过以下指标:
(1)分类正确率(classification accuracy)
Accuracy(M)=Σxp(x)Accuracy(M,x)=p(C(x)=C(x)
当C(x)=C(x)时Accuracy(M,x)=1,否则Accuracy(M,x)=0。其中C(x) 为样例x的实际类别,C(x)为模型预测类别,p(x)为样例x的概率。
(2)查准率(precision)
是指与检索集匹配正确的搜索引擎检索到的文档数目与所有满足查询的 文档数目的比例。查准率的估计公式为:
precision(M,C)=P(C/C)
(3)查全率(recall)是指检索结果中正确的文本检索目标与实际存在的满 足查询要求的文本数据的比例,查全率的估计公式为:
Recall(M,C)=P(C C))
其中C代表实际值为目标类值,C代表预测值为目标类值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于爱品克科技(武汉)股份有限公司,未经爱品克科技(武汉)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711452259.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人群热力图获得方法及装置
- 下一篇:人机交互方法及智能机器人