[发明专利]网络平台公共账号分类方法及装置有效
申请号: | 201610102531.0 | 申请日: | 2016-02-24 |
公开(公告)号: | CN105787025B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 黎新;陈谦 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 平台 公共 账号 分类 方法 装置 | ||
1.一种网络平台公共账号分类方法,其特征在于,包括:
根据用户与公共账号的交互频度,来确定用户偏好的公共账号;
将所述用户偏好的公共账号作为待分类账号;
当所述待分类账号属于订阅类的公共账号时,从待分类账号的数据中,获取包括所述待分类账号发布的主题的非文本信息、以及包括直接文本信息和间接文本信息的文本信息,将所述非文本信息和所述文本信息中的至少之一作为属性信息;
其中,所述直接文本信息包括所述待分类账号的昵称、功能描述、签名描述中的至少之一,所述间接文本信息包括所述待分类账号向网络平台提供的描述文本;
当所述待分类账号属于服务类的公共账号时,从待分类账号的数据中,获取包括所述待分类账号所调用的网络平台的接口类别、所述待分类账号的菜单内容的非文本信息、以及包括直接文本信息和间接文本信息的文本信息,将所述非文本信息和所述文本信息中的至少之一作为属性信息;
从所述属性信息中提取分类依据特征;
其中,当所述待分类账号属于订阅类的公共账号时,从所述属性信息中提取的分类依据特征包括所述待分类账号发布频率的排名靠前的主题、基于所述直接文本信息生成的关键词和/或n-gram语言模型片段、以及通过语义分析基于所述间接文本信息获取的主题特征中的至少之一;当所述待分类账号属于服务类的公共账号时,从所述属性信息中提取的分类依据特征包括所述待分类账号的服务内容、基于所述直接文本信息生成的关键词和/或n-gram语言模型片段、以及通过语义分析基于所述间接文本信息获取的主题特征中的至少之一;
根据所述分类依据特征,基于一级分类模型,将所述待分类账号划分到订阅类,基于二级分类模型,将所述待分类账号划分到较所述订阅类更细粒度的类别,或,基于一级分类模型,将所述待分类账号划分到服务类,基于二级分类模型,将所述待分类账号划分到较所述服务类更细粒度的类别,以得到所述用户偏好的公共账号的分类结果;
其中,所述一级分类模型或二级分类模型的分类依据特征是根据比例大于预定阈值的样本特征而确定的;所述比例为样本类别对所述样本特征的引用数相对于所有样本类别对所述样本特征的引用数的比值;
基于所述分类结果为所述用户推送与所述用户偏好的公共账号的类别相同或相近的公共账号。
2.根据权利要求1所述的方法,其特征在于,所述从所述属性信息中提取分类依据特征包括:
根据单位时段内的发布频率对所述待分类账号发布的主题进行排序;
选取排序在预定阈值以前的主题作为所述分类依据特征。
3.根据权利要求1所述的方法,其特征在于,所述从所述属性信息中提取分类依据特征包括:
对所述直接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理,以生成字词序列;
从所述字词序列中抽取关键词和/或n-gram语言模型片段,作为所述分类依据特征。
4.根据权利要求1所述的方法,其特征在于,所述从所述属性信息中提取分类依据特征包括:
对所述间接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理,以生成字词序列;
基于所述字词序列,通过语义分析获取所述分类依据特征。
5.根据权利要求1所述的方法,其特征在于,还包括:
选取感兴趣的公共账号作为所述待分类账号进行分类,以得到所述感兴趣的公共账号的分类结果;
基于所述分类结果,获得所述感兴趣的公共账号的统计信息,其中所述统计信息包括所述感兴趣的公共账号的行业分布、用户分布、行业排名、行业影响力中的一个或多个。
6.根据权利要求1所述的方法,其特征在于,所述一级分类模型或所述二级分类模型通过以下方法预先确定:
确定训练样本集合中的各训练样本的类别与所述分类依据特征之间的对应关系,其中,所述训练样本集合中的各训练样本为已标注有类别的公共账号;以及
根据所述对应关系来确定所述一级分类模型或所述二级分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610102531.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种重复数据的删除方法及装置
- 下一篇:基于hadoop的海量数据挖掘方法