[发明专利]头版新闻预测分类方法有效

专利信息
申请号: 202010845229.0 申请日: 2020-08-20
公开(公告)号: CN112100372B 公开(公告)日: 2022-08-30
发明(设计)人: 曹开臣;戴礼灿;孙文;陈明仁;蔡世民 申请(专利权)人: 西南电子技术研究所(中国电子科技集团公司第十研究所)
主分类号: G06F16/35 分类号: G06F16/35;G06F16/215;G06F40/289;G06F40/284;G06F16/951;G06K9/62
代理公司: 成都九鼎天元知识产权代理有限公司 51214 代理人: 刘世权
地址: 610036 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 头版 新闻 预测 分类 方法
【权利要求书】:

1.一种头版新闻预测分类方法,其特征在于包括如下步骤:利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构,首先通过用户界面输入要查询的关键字,在互联网上搜集网页,使用面向对象的程序设计语言Python编写网络爬虫,加载到新闻报刊文本数据采集模块中,将搜集到的网页新闻文本信息保存到本地数据库;数据清洗模块将从网站获取的原数据进行数据清洗工作;文本分词模块使用结巴分词,对清洗完毕的数据进行分词;文本表征模块利用Doc2Vec表征算法进行向量表征,将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量;相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况,得到一个稀疏的相似矩阵,根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵,构建出新闻相似性网络;头版新闻预测模块将H指数引入PageRank算法,根据相似性网络计算支持H-指数贡献矩阵,判断是否遍历完相似性网络,是则根据支持H-指数贡献矩阵迭代计算向量HR值,利用HR值对新闻进行权重排序,预测top-N条新闻作为头版新闻;

其中,头版新闻预测模块将H指数引入PageRank算法,根据相似性网络计算支持H-指数贡献矩阵,判断是否遍历完相似性网络,是则根据支持H-指数贡献矩阵迭代计算向量HR值,利用HR值对新闻进行权重排序,预测top-N条新闻作为头版新闻步骤,具体包括:

头版新闻预测模块对新闻进行权重排序,将预测top-N条新闻作为头版新闻,根据相似性网络计算支持H-指数贡献矩阵第i行j列的值vj∈N(vi)

其中,Aij为网络邻接矩阵第i行j列的值,vi为目标节点,vj为vi所属领域中的节点,D(vj)为邻域中节点vj的度,H(vi)为目标节点vi的H指数;

头版新闻预测模块遍历计算完相似性网络,根据邻接函数l(vi,vj)代表在GSHCM网络中节点vJ在vi领域NSHCM(vi)中的节点总数中的比重和支持H-指数贡献矩阵迭代计算向量HR值:

其中,d为阻尼系数,NSHCM(vi)为网络GSHCM中节点vi的领域,DSHCM(vj)为网络GSHCM中节点vj的度,Sorti表示基于某种排序算法所得的排序序列中第i个元素,N为Top-N预测的预测长度;

网络GSHCM中节点的数量NSHCM=|VSHCM|,如果网络GSHCM中节点vi和网络GSHCM中节点vJvj不相邻,则邻接函数l(vi,vj)=0,将HR值计算结果进行Top-N预测,得到低维文本特征向量表征Ri=Sorti,if iN。

2.如权利要求1所述的头版新闻预测分类方法,其特征在于:新闻报刊文本数据采集模块使用Python编写网络爬虫将网页新闻文本信息储存为“时间-标题-文本-版面号”的格式,并保存到本地。

3.如权利要求1所述的头版新闻预测分类方法,其特征在于:数据清洗模块将从网站获取的原数据中存在的“图片新闻”进行数据清洗,将原数据中的部分垃圾信息删除,随后对数据格式进行规则化,删除文本中的标点、空格,同时将时间转化为标准8位的形式YYYYMMDD。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010845229.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top