[发明专利]一种科技新闻的增量学习多层次二分类方法有效

专利信息
申请号: 201510642902.X 申请日: 2015-10-08
公开(公告)号: CN105205163B 公开(公告)日: 2018-08-10
发明(设计)人: 朱全银;潘禄;刘文儒;李翔;周泓;胡荣林;丁瑾;金鹰;邵武杰;唐海波 申请(专利权)人: 淮阴工学院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 223005 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 科技新闻 增量 学习 多层次 分类 方法
【说明书】:

发明公开了一种科技新闻的增量学习多层次二分类方法,本发明利用新闻属性中的文章标题、文章内容、关键词,结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,使用余弦相似度计算新文本与科技新闻分类和非科技新闻分类间的相似度,以此依据判定新文本的分类,多层次判断方法和增量学习方法提高了对科技词汇的敏感度,二分类方法能够减少与科技新闻无关新闻的文本数量,进而提高文本多分类准确性。本发明用于改善从Web网页中抽取新闻信息的使用价值,提高科技新闻的分类准确率。

技术领域

本发明属于Web网页中文本分类领域,特别涉及一种科技新闻的增量学习多层次二分类方法,用于改善从Web网页中抽取新闻信息的使用价值,提高科技新闻的分类准确率。

背景技术

掌握科技新闻对于企业的生存和发展有重要的作用和意义,随着互联网的不断普及,网络成为了科技新闻的主要来源,而网络内容的信息量大、复杂、重复率高和格式不统一是企业收集科技新闻的主要障碍,近年来,针对Web网页中科技新闻的收集得到了越来越高的重视。Web网页新闻是发布科技进步、科研成果最快的途径之一,研究科技新闻分类是属于文本分类问题。研究分类问题一般方法有朴素贝叶斯、决策数、K近邻、支持向量机、神经网络、基于TF-IDF的Rocchio方法等。

2009年到2014年,朱全银等人给出了Web文本处理的办法(李翔, 朱全银. 联合聚类和评分矩阵共享的协同过滤推荐. 计算机科学与探索. 2014. Vol.8(6):751-759;Suqun Cao, Quanyin Zhu, Zhiwei Hou. Customer Segmentation Based on a NovelHierarchical Clustering Algorithm. 2009, p:1-5 (EI:20100412657161);QuanyinZhu, Sunqun Cao. A Novel Classifier- independent Feature Selection Algorithmfor Imbalanced Datasets. 2009, p:77-82 (EI:20095012543848); Suqun Cao, ZhiweiHou, Liuyang Wang, Quanyin Zhu. Kernelized Fuzzy Fisher Criterion basedClustering Algorithm. DCABES 2010, p:87-91 (EI:20104413349424); Quanyin Zhu,Yunyang Yan, Jin Ding, Jin Qian. The Case Study for Price Extracting ofMobile Phone Sell Online. 2011, p:282-285 (EI:20113714318072); Quanyin Zhu,Suqun Cao, Pei Zhou, Yunyang Yan, Hong Zhou. Integrated Price Forecast basedon Dichotomy Backfilling and Disturbance Factor Algorithm. InternationalReview on Computers and Software, 2011, Vol.6(6):1089-1093. (EI:20121814977597); Suqun Cao, Gelan Yang, Quanyin Zhu, Haihei Zhai. A novelfeature extraction method for mechanical part recognition. Applied Mechanicsand Materials, 2011, p:116-121 (EI:20113814354316); Pei Zhou, Quanyin Zhu.Multi-factor Matching Method for Basic Information of Science and TechnologyExperts Based on Web Mining. 2012, P:718-720 (EI:20123915469307); JianpingDeng, Fengwen Cao, Quanyin Zhu, Yu Zhang. The Web Data Extracting andApplication for Shop Online Based on Commodities Classified. Communicationsin Computer and Information Science, Vol.234(4):120-128(EI:20113814340383);Hui Zong, Quanyin Zhu, Ming Sun, Yahong Zhang. The case study for humanresource management research based on web mining and semantic analysis.Applied Mechanics and Materials, Vol.488, 2014 p:1336-1339 (EI:20140517249044))。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510642902.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top