[发明专利]一种基于直接优化PAUC算法的新闻信息分类方法有效
申请号: | 201710266425.0 | 申请日: | 2017-04-21 |
公开(公告)号: | CN107103071B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 程凡;宋栋栋;张闯;张兴义;岳千里;章霞 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230601 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 直接 优化 pauc 算法 新闻 信息 分类 方法 | ||
本发明公开了一种基于直接优化PAUC算法的新闻信息分类方法,其特征是按如下步骤进行:1、采集新闻信息的数据集,并将数据集S按照样本的类别划分为相关新闻信息集合S+与非相关新闻信息集合S‑;2、从所述相关信息集合S+和不相关信息集合S‑选取新闻信息特征xT;3、通过新闻信息特征xT得到第T次迭代的自适应梯度4、利用自适应梯度更新预测模型wT。本发明能高效的在海量的新闻信息中筛选出符合用户喜好的新闻,提高了用户对新闻信息的搜索效率,提升了用户体验。
技术领域
本发明涉及统计学习分类技术领域,更具体地说是一种基于随机梯度下降法的直接优化PAUC的新闻主题分类方法。
背景技术
当今社会急速发展,科技日新月异,人们每时每刻的生活都被大量的数据所环绕,毫无疑问,这是社会进步的象征。网上浏览新闻作为一种喜闻乐见的放松方式,不仅能够增长人们的见识,同时能够加深人们对事物的认知。但若无法在海量的新闻信息中甄别出对用户关注的信息,那么数量如此庞大的信息必定会严重影响我们的工作以及学习效率。
在海量的新闻信息中,用户感兴趣的信息少之又少,因此如何提取其中用户关注的信息显得极为重要。对于此类在众多的数据中提取少量有效信息的案例,正是使用了机器学习中对于不平衡数据集的分类算法。而PAUC(partial area under curve)评估标准,能很好的度量不平衡二分类算法的整体性能,因此在机器学习中受到广泛关注。基于此,本发明提出了基于直接优化PAUC算法的新闻信息分类方法
PAUC的概念最早在医疗领域提出,并迅速被众多学者所认可,此后在生物信息方面得到了广泛使用。PAUC在科学研究中具有十分深刻的意义,值得人们在学习生活中不断地使用和推广。目前针对PAUC的分类问题,主要有两种经典的处理方案:批学习求解和随机学习求解。其中,批学习求解中最为高效的案例是:2013年,HarikrishnaNarasimhan将PAUC从生物信息领域拓展到更广泛的应用空间,提出一种“通用”的直接优化PAUC的算法。在此基础上,2014年,Purushottam Kar首次提出了基于Mini-batch的随机PAUC优化算法,为保证较快的运行时间,训练过程中只使用了部分正样本。但此前的算法效果在处理大规模数据集时,都存在“耗时长”的弊端,不能满足当前“数据爆炸”的趋势。
发明内容
本发明为克服现有技术存在的不足之处,提出一种基于直接优化PAUC算法的新闻信息分类方法,以期能在大规模新闻信息数据中迅速筛选出用户感兴趣的新闻信息,从而提高分类精度。
为了达到上述目的,本发明所采用的技术方案为:
本发明一种基于直接优化PAUC算法的新闻信息分类方法特点是按如下步骤进行:
步骤1、采集新闻信息,记为xi表示第i个新闻信息,xi∈Rd;Rd表示实数的d维空间,d表示新闻信息包含的主题词个数;yi表示新闻信息的相关性,且yi∈{+1,-1};当yi=+1时,表示第i个新闻信息xi为用户感兴趣信息,当yi=-1时,表示第i个新闻信息xi非用户感兴趣信息;1≤i≤n;
将所有用户感兴趣信息作为相关信息集合S+={(x+,+1)};且表示第i个相关信息,1≤i≤n+,其余信息作为不相关信息集合S-={(x-,-1)},且表示第j个不相关信息;1≤j≤n-,n++n-=n;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710266425.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种手持电容话筒结构
- 下一篇:一种空调及其室内机