[发明专利]一种基于直接优化PAUC算法的新闻信息分类方法有效

专利信息
申请号: 201710266425.0 申请日: 2017-04-21
公开(公告)号: CN107103071B 公开(公告)日: 2019-08-02
发明(设计)人: 程凡;宋栋栋;张闯;张兴义;岳千里;章霞 申请(专利权)人: 安徽大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230601 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于直接优化PAUC算法的新闻信息分类方法,其特征是按如下步骤进行:1、采集新闻信息的数据集,并将数据集S按照样本的类别划分为相关新闻信息集合S+与非相关新闻信息集合S;2、从所述相关信息集合S+和不相关信息集合S选取新闻信息特征xT;3、通过新闻信息特征xT得到第T次迭代的自适应梯度4、利用自适应梯度更新预测模型wT。本发明能高效的在海量的新闻信息中筛选出符合用户喜好的新闻,提高了用户对新闻信息的搜索效率,提升了用户体验。
搜索关键词: 一种 基于 直接 优化 pauc 算法 新闻 信息 分类 方法
【主权项】:
1.一种基于直接优化PAUC算法的新闻信息分类方法,其特征是按如下步骤进行:步骤1、采集新闻信息,记为xi表示第i个新闻信息,xi∈Rd;Rd表示实数的d维空间,d表示新闻信息包含的主题词个数;yi表示新闻信息的相关性,且yi∈{+1,‑1};当yi=+1时,表示第i个新闻信息xi为用户感兴趣信息,当yi=‑1时,表示第i个新闻信息xi非用户感兴趣信息;1≤i≤n;将所有用户感兴趣信息作为相关信息集合S+={(x+,+1)};且表示第i个相关信息,1≤i≤n+,其余信息作为不相关信息集合S={(x,‑1)},且表示第j个不相关信息;1≤j≤n,n++n=n;步骤2、从所述相关信息集合S+和不相关信息集合S选取新闻信息特征xT;步骤2.1、定义迭代次数为T,初始化T=1;定义最大迭代次数为Tmax,定义迭代过程中的排序间隔数为k,并有t=mod(T,k);初始化第T次迭代的预测模型w为一个d维的零向量,记为wT;步骤2.2、判断t=0是否成立,若成立,则执行步骤2.3;否则,将赋值给再执行步骤2.5;其中,表示第T‑1次迭代的不相关信息集合,表示第T次迭代的不相关信息集合;步骤2.3、利用式(1)计算第T次迭代时第j个不相关信息的决策函数值从而得到第T次迭代不相关信息对应的决策函数集合步骤2.4、对所述决策函数集合降序排序,并取出前个决策函数值对应的不相关信息组成第T次迭代的不相关信息集合β表示所设定的阈值;步骤2.5、从所述相关信息集合S+中随机选择第T次迭代的相关信息从所述第T次迭代的不相关信息集合中随机选择第T次迭代的不相关信息并进行求差计算,得到第T次迭代的新闻信息特征步骤3、通过新闻信息特征xT得到第T次迭代的自适应梯度步骤3.1、利用式(2)定义损失函数为:步骤3.2、对所述损失函数求偏导,利用随机梯度下降法得到第T次迭代的梯度gT;步骤3.3、对前T次迭代的梯度求二范数的平方MT,得到第T次迭代的自适应步长其中θ为常数;步骤3.4、利用式(3)更新第T次迭代的梯度gT以及第T次迭代的自适应步长得到更新后的第T次迭代的自适应梯度步骤4、利用式(4)更新第T次迭代的预测模型wT式(4)中,η为全局步长;步骤5、将T+1赋值给T,并返回步骤2.2,直到T>Tmax为止,从而得到全局预测模型步骤6、使用全局预测模型对其他新闻信息集合进行分类,从而得到用户感兴趣信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710266425.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top