[发明专利]一种基于直接优化PAUC算法的新闻信息分类方法有效
申请号: | 201710266425.0 | 申请日: | 2017-04-21 |
公开(公告)号: | CN107103071B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 程凡;宋栋栋;张闯;张兴义;岳千里;章霞 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230601 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于直接优化PAUC算法的新闻信息分类方法,其特征是按如下步骤进行:1、采集新闻信息的数据集,并将数据集S按照样本的类别划分为相关新闻信息集合S+与非相关新闻信息集合S‑;2、从所述相关信息集合S+和不相关信息集合S‑选取新闻信息特征xT;3、通过新闻信息特征xT得到第T次迭代的自适应梯度4、利用自适应梯度更新预测模型wT。本发明能高效的在海量的新闻信息中筛选出符合用户喜好的新闻,提高了用户对新闻信息的搜索效率,提升了用户体验。 | ||
搜索关键词: | 一种 基于 直接 优化 pauc 算法 新闻 信息 分类 方法 | ||
【主权项】:
1.一种基于直接优化PAUC算法的新闻信息分类方法,其特征是按如下步骤进行:步骤1、采集新闻信息,记为xi表示第i个新闻信息,xi∈Rd;Rd表示实数的d维空间,d表示新闻信息包含的主题词个数;yi表示新闻信息的相关性,且yi∈{+1,‑1};当yi=+1时,表示第i个新闻信息xi为用户感兴趣信息,当yi=‑1时,表示第i个新闻信息xi非用户感兴趣信息;1≤i≤n;将所有用户感兴趣信息作为相关信息集合S+={(x+,+1)};且表示第i个相关信息,1≤i≤n+,其余信息作为不相关信息集合S‑={(x‑,‑1)},且表示第j个不相关信息;1≤j≤n‑,n++n‑=n;步骤2、从所述相关信息集合S+和不相关信息集合S‑选取新闻信息特征xT;步骤2.1、定义迭代次数为T,初始化T=1;定义最大迭代次数为Tmax,定义迭代过程中的排序间隔数为k,并有t=mod(T,k);初始化第T次迭代的预测模型w为一个d维的零向量,记为wT;步骤2.2、判断t=0是否成立,若成立,则执行步骤2.3;否则,将赋值给再执行步骤2.5;其中,表示第T‑1次迭代的不相关信息集合,表示第T次迭代的不相关信息集合;步骤2.3、利用式(1)计算第T次迭代时第j个不相关信息的决策函数值从而得到第T次迭代不相关信息对应的决策函数集合步骤2.4、对所述决策函数集合降序排序,并取出前个决策函数值对应的不相关信息组成第T次迭代的不相关信息集合β表示所设定的阈值;步骤2.5、从所述相关信息集合S+中随机选择第T次迭代的相关信息从所述第T次迭代的不相关信息集合中随机选择第T次迭代的不相关信息并进行求差计算,得到第T次迭代的新闻信息特征步骤3、通过新闻信息特征xT得到第T次迭代的自适应梯度步骤3.1、利用式(2)定义损失函数为:步骤3.2、对所述损失函数求偏导,利用随机梯度下降法得到第T次迭代的梯度gT;步骤3.3、对前T次迭代的梯度求二范数的平方MT,得到第T次迭代的自适应步长其中θ为常数;步骤3.4、利用式(3)更新第T次迭代的梯度gT以及第T次迭代的自适应步长得到更新后的第T次迭代的自适应梯度步骤4、利用式(4)更新第T次迭代的预测模型wT:式(4)中,η为全局步长;步骤5、将T+1赋值给T,并返回步骤2.2,直到T>Tmax为止,从而得到全局预测模型步骤6、使用全局预测模型对其他新闻信息集合进行分类,从而得到用户感兴趣信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710266425.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种手持电容话筒结构
- 下一篇:一种空调及其室内机