[发明专利]数据处理方法、装置及存储介质有效
申请号: | 201710585205.4 | 申请日: | 2017-07-18 |
公开(公告)号: | CN110019639B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 常卓;温旭;范欣;张智敏;张伟;花少勇;李探;王丹丹 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/335;G06F16/35;H04L67/55 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 于天琳;王琦 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 存储 介质 | ||
1.一种数据处理方法,其中,该方法包括:
获取一个内容类别的训练样本;
确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率,其中,K为正整数;
根据所述每个主题描述词在任一主题出现的概率确定所述内容类别的词-主题向量;
确定所述词-主题向量与预先设定的背景向量之间的距离;以及
根据所述距离确定所述内容类别的N个第一特征词;其中,N为正整数。
2.根据权利要求1所述的方法,其中,所述方法进一步包括:
根据预定特征词确定算法对所述训练样本进行训练,确定所述内容类别的M个第二特征词;其中,M为正整数;以及
将所述N个第一特征词和所述M个第二特征词求交集,确定所述内容类别对应的一个或多个特征词。
3.根据权利要求1所述的方法,其中,所述方法进一步包括:
根据所有内容类别的特征词及所述训练样本建立分类模型;
根据所述分类模型对未经分类的文本内容进行分类,确定所述未经分类的文本内容的内容类别、该文本内容所包含的特征词及所述特征词与所述内容类别的相关度。
4.根据权利要求1所述的方法,其中,所述确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率包括:根据隐含狄利克雷分布算法确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率。
5.根据权利要求4所述的方法,其中,所述每个主题描述词在任一主题出现的概率由如下公式表示:
其中,任一项向量元素由如下公式表示:
其中,表示主题描述词c在主题i中出现的概率,ni,c表示主题描述词c在主题i中出现的次数,βc和βj为概率平滑因子,代表所有主题描述词在主题i上出现的次数之和。
6.根据权利要求1所述的方法,其中,所述确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率,包括:根据概率潜在语义分析算法确定所述训练样本的K个主题、每个主题的一个或多个主题描述词以及每个主题描述词在任一主题出现的概率。
7.根据权利要求1所述的方法,其中,所述根据所述每个主题描述词在任一主题出现的概率确定所述内容类别的词-主题向量包括:根据在所述内容类别下每个主题描述词在任一主题出现的概率计算各个主题对各个主题描述词的影响占比分布作为各个主体描述词对应的词-主题向量。
8.根据权利要求7所述的方法,其中,主题i对主题描述词c的影响占比为主题i中出现主题描述词c的概率与主题描述词c在所述内容类别下的所有主题中出现的概率的比值,通过如下公式计算:
其中,表示主题描述词c在主题i中出现的概率;表示主题描述词c在所述内容类别下各个主题上出现的概率之和。
9.根据权利要求1所述的方法,其中,所述背景向量为平均分布;
所述确定所述词-主题向量与预先设定的背景向量之间的距离包括:
利用信息增益算法或JS散度算法计算所述词-主题向量与所述背景向量之间的距离。
10.根据权利要求1所述的方法,其中,所述根据所述距离确定所述内容类别下的N个第一特征词包括:
根据所述距离从大到小对上述主题描述词进行降序排序,将其中的前N个主题描述词确定为所述内容类别下的第一特征词;或者
预先设定阈值,将所述距离达到预定阈值的N个词确定为所述内容类别下的第一特征词。
11.根据权利要求2所述的方法,其中,所述根据预定特征词确定算法包括:互信息算法、文档频率算法或卡方检验算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710585205.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于冷热词分离的索引方法
- 下一篇:涉密文件检查方法及装置