[发明专利]网络平台公共账号分类方法及装置有效

申请号：	201610102531.0	申请日：	2016-02-24
公开（公告）号：	CN105787025B	公开（公告）日：	2021-07-09
发明（设计）人：	黎新;陈谦	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	蒋雅洁;张颖玲
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网络平台公共账号分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网络平台公共账号分类方法，其特征在于，包括：

根据用户与公共账号的交互频度，来确定用户偏好的公共账号；

将所述用户偏好的公共账号作为待分类账号；

当所述待分类账号属于订阅类的公共账号时，从待分类账号的数据中，获取包括所述待分类账号发布的主题的非文本信息、以及包括直接文本信息和间接文本信息的文本信息，将所述非文本信息和所述文本信息中的至少之一作为属性信息；

其中，所述直接文本信息包括所述待分类账号的昵称、功能描述、签名描述中的至少之一，所述间接文本信息包括所述待分类账号向网络平台提供的描述文本；

当所述待分类账号属于服务类的公共账号时，从待分类账号的数据中，获取包括所述待分类账号所调用的网络平台的接口类别、所述待分类账号的菜单内容的非文本信息、以及包括直接文本信息和间接文本信息的文本信息，将所述非文本信息和所述文本信息中的至少之一作为属性信息；

从所述属性信息中提取分类依据特征；

其中，当所述待分类账号属于订阅类的公共账号时，从所述属性信息中提取的分类依据特征包括所述待分类账号发布频率的排名靠前的主题、基于所述直接文本信息生成的关键词和/或n-gram语言模型片段、以及通过语义分析基于所述间接文本信息获取的主题特征中的至少之一；当所述待分类账号属于服务类的公共账号时，从所述属性信息中提取的分类依据特征包括所述待分类账号的服务内容、基于所述直接文本信息生成的关键词和/或n-gram语言模型片段、以及通过语义分析基于所述间接文本信息获取的主题特征中的至少之一；

根据所述分类依据特征，基于一级分类模型，将所述待分类账号划分到订阅类，基于二级分类模型，将所述待分类账号划分到较所述订阅类更细粒度的类别，或，基于一级分类模型，将所述待分类账号划分到服务类，基于二级分类模型，将所述待分类账号划分到较所述服务类更细粒度的类别，以得到所述用户偏好的公共账号的分类结果；

其中，所述一级分类模型或二级分类模型的分类依据特征是根据比例大于预定阈值的样本特征而确定的；所述比例为样本类别对所述样本特征的引用数相对于所有样本类别对所述样本特征的引用数的比值；

基于所述分类结果为所述用户推送与所述用户偏好的公共账号的类别相同或相近的公共账号。

2.根据权利要求1所述的方法，其特征在于，所述从所述属性信息中提取分类依据特征包括：

根据单位时段内的发布频率对所述待分类账号发布的主题进行排序；

选取排序在预定阈值以前的主题作为所述分类依据特征。

3.根据权利要求1所述的方法，其特征在于，所述从所述属性信息中提取分类依据特征包括：

对所述直接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；

从所述字词序列中抽取关键词和/或n-gram语言模型片段，作为所述分类依据特征。

4.根据权利要求1所述的方法，其特征在于，所述从所述属性信息中提取分类依据特征包括：

对所述间接文本信息进行分词、去停用词、实体词识别、以及文本过滤中的一个或多个处理，以生成字词序列；

基于所述字词序列，通过语义分析获取所述分类依据特征。