[发明专利]应用的标签信息生成方法及装置有效
申请号: | 201710279297.3 | 申请日: | 2017-04-25 |
公开(公告)号: | CN107169049B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 何泉昊 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 朱雅男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用 标签 信息 生成 方法 装置 | ||
1.一种应用的标签信息生成方法,其特征在于,所述方法包括:
对于预先存储的至少两个一级分类标签中的每一个一级分类标签,依据应用开发者对各个应用的标签信息的备注,将各个应用初步按照所述至少两个一级分类标签进行分类,获取初步所属于所述一级分类标签的至少一个应用;
获取对至少一个应用的人工分类标注结果;
基于所述人工分类标注结果,在所述至少一个应用中筛选出用于进行模型训练的训练样本,所述训练样本为经过人工分类后再次确定为所属于所述一级分类标签的应用;
对所属于每一个一级分类标签的训练样本的应用详情信息进行分词处理;
将得到的分词结果和所述分词结果对应的一级分类标签以指定格式存储到特定训练文本中;
基于文本分类工具函数和所述特定训练文本进行模型训练,得到训练模型;
对所述训练模型进行交叉测试,直至得到的训练模型的分类精度满足预设条件,得到领域分类模型;
获取应用详情信息,所述应用详情信息用于对一个提交的应用进行功能特性描述;
基于所述领域分类模型和所述应用详情信息,在所述至少两个一级分类标签中确定所述应用所属的指定一级分类标签,所述指定一级分类标签的数量为一个或者两个;
将所述应用详情信息中包含的应用介绍信息切分成至少两个短句;
通过有权图,根据所述至少两个短句中任意两个短句中共同出现的词语的个数以及每个短句中词语的个数,计算所述任意两个短句之间的相似度,其中,每个短句是所述有权图的节点,在所述任意两个短句之间有相似性的情况下,所述任意两个短句对应的两个节点之间存在有权边,权值是所述相似度;
根据所述任意两个短句之间的相似度,计算所述至少两个短句中每一个短句的重要程度值;
按照从大到小的顺序对每一个短句的重要程度值进行排序,基于得到的排序结果,在所述至少两个短句中筛选出排在前面的指定数目个短句;
按照在所述应用介绍信息中出现的先后顺序,将所述指定数目个短句进行组合处理,得到所述提交的应用的摘要信息;
在所述至少两个短句中的每个句子中过滤掉停用词,且仅保留指定词性的单词,得到句子的集合和单词的集合;基于构成的无权图,计算每个单词的重要程度,并将预设数目个单词作为所述应用介绍信息的关键词,所述关键词的重要程度大于所述句子的集合和单词的集合中的其他单词的重要程度,每个单词作为所述无权图中的一个节点,一个窗口中的任两个单词对应的节点之间存在一个无权的边;
基于预先存储的词语聚类结果和所述应用介绍信息的关键词,对所述应用的摘要信息进行关键词匹配,基于得到的匹配结果,在所述指定一级分类标签下确定所述应用所属的指定子级分类标签,所述词语聚类结果是对预设数目个已提交应用的摘要信息进行词语聚类处理得到的;
获取所述应用详情信息中包含的至少一张应用截图,所述应用截图是首次安装打开所述应用时用户所看到的应用截图;
对于每一张应用截图,将所述应用截图拆解为至少一个图像通道;
在所述至少一个图像通道包含的每一个图像通道中,定位包括文字的至少一个文本区域;
针对于每一个文本区域,根据字符的特点,来构造相应的能量约束函数将文本区域组合为独立且待进行文字识别的文本行;对于每一个文本行,进行切分或者组合处理,对于处理后得到的每一个基元矩形块,均会得到相应的一个识别结果,所述识别结果中包括识别到的文字以及相应的置信度;
将对每一个文本区域识别到的文字进行组合,得到所述至少一张应用截图的文字识别结果;
基于所述文字识别结果,为所述应用生成除所述指定一级分类标签以及所述指定子级分类标签之外的标签信息;
根据应用与标签信息之间的匹配度、基于应用的下载量和用户对应用的评分进行的加权,对同一分类标签列表下的应用排序。
2.根据权利要求1所述的方法,其特征在于,所述基于所述领域分类模型和所述应用详情信息,在所述至少两个一级分类标签中确定所述应用所属的指定一级分类标签,包括:
基于所述领域分类模型和所述应用详情信息,获取对所述应用的领域分类结果,所述领域分类结果中包括所述应用所属于所述至少两个一级分类标签中每一个一级分类标签的概率分值;
在所述至少两个一级分类标签中,筛选出概率分值最高的至少一个一级分类标签,将所述概率分值最高的至少一个一级分类标签确定为所述指定一级分类标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710279297.3/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置