[发明专利]头版新闻预测分类方法有效
申请号: | 202010845229.0 | 申请日: | 2020-08-20 |
公开(公告)号: | CN112100372B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 曹开臣;戴礼灿;孙文;陈明仁;蔡世民 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/215;G06F40/289;G06F40/284;G06F16/951;G06K9/62 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 刘世权 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 头版 新闻 预测 分类 方法 | ||
1.一种头版新闻预测分类方法,其特征在于包括如下步骤:利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构,首先通过用户界面输入要查询的关键字,在互联网上搜集网页,使用面向对象的程序设计语言Python编写网络爬虫,加载到新闻报刊文本数据采集模块中,将搜集到的网页新闻文本信息保存到本地数据库;数据清洗模块将从网站获取的原数据进行数据清洗工作;文本分词模块使用结巴分词,对清洗完毕的数据进行分词;文本表征模块利用Doc2Vec表征算法进行向量表征,将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量;相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况,得到一个稀疏的相似矩阵,根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵,构建出新闻相似性网络;头版新闻预测模块将H指数引入PageRank算法,根据相似性网络计算支持H-指数贡献矩阵,判断是否遍历完相似性网络,是则根据支持H-指数贡献矩阵迭代计算向量HR值,利用HR值对新闻进行权重排序,预测top-N条新闻作为头版新闻;
其中,头版新闻预测模块将H指数引入PageRank算法,根据相似性网络计算支持H-指数贡献矩阵,判断是否遍历完相似性网络,是则根据支持H-指数贡献矩阵迭代计算向量HR值,利用HR值对新闻进行权重排序,预测top-N条新闻作为头版新闻步骤,具体包括:
头版新闻预测模块对新闻进行权重排序,将预测top-N条新闻作为头版新闻,根据相似性网络计算支持H-指数贡献矩阵第i行j列的值vj∈N(vi)
其中,Aij为网络邻接矩阵第i行j列的值,vi为目标节点,vj为vi所属领域中的节点,D(vj)为邻域中节点vj的度,H(vi)为目标节点vi的H指数;
头版新闻预测模块遍历计算完相似性网络,根据邻接函数l(vi,vj)代表在GSHCM网络中节点vJ在vi领域NSHCM(vi)中的节点总数中的比重和支持H-指数贡献矩阵迭代计算向量HR值:
其中,d为阻尼系数,NSHCM(vi)为网络GSHCM中节点vi的领域,DSHCM(vj)为网络GSHCM中节点vj的度,Sorti表示基于某种排序算法所得的排序序列中第i个元素,N为Top-N预测的预测长度;
网络GSHCM中节点的数量NSHCM=|VSHCM|,如果网络GSHCM中节点vi和网络GSHCM中节点vJvj不相邻,则邻接函数l(vi,vj)=0,将HR值计算结果进行Top-N预测,得到低维文本特征向量表征Ri=Sorti,if iN。
2.如权利要求1所述的头版新闻预测分类方法,其特征在于:新闻报刊文本数据采集模块使用Python编写网络爬虫将网页新闻文本信息储存为“时间-标题-文本-版面号”的格式,并保存到本地。
3.如权利要求1所述的头版新闻预测分类方法,其特征在于:数据清洗模块将从网站获取的原数据中存在的“图片新闻”进行数据清洗,将原数据中的部分垃圾信息删除,随后对数据格式进行规则化,删除文本中的标点、空格,同时将时间转化为标准8位的形式YYYYMMDD。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010845229.0/1.html,转载请声明来源钻瓜专利网。