[发明专利]头版新闻预测分类方法有效

申请号：	202010845229.0	申请日：	2020-08-20
公开（公告）号：	CN112100372B	公开（公告）日：	2022-08-30
发明（设计）人：	曹开臣;戴礼灿;孙文;陈明仁;蔡世民	申请（专利权）人：	西南电子技术研究所(中国电子科技集团公司第十研究所)
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/215;G06F40/289;G06F40/284;G06F16/951;G06K9/62
代理公司：	成都九鼎天元知识产权代理有限公司 51214	代理人：	刘世权
地址：	610036 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	头版新闻预测分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种头版新闻预测分类方法，其特征在于包括如下步骤：利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构，首先通过用户界面输入要查询的关键字，在互联网上搜集网页，使用面向对象的程序设计语言Python编写网络爬虫，加载到新闻报刊文本数据采集模块中，将搜集到的网页新闻文本信息保存到本地数据库；数据清洗模块将从网站获取的原数据进行数据清洗工作；文本分词模块使用结巴分词，对清洗完毕的数据进行分词；文本表征模块利用Doc2Vec表征算法进行向量表征，将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量；相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况，得到一个稀疏的相似矩阵，根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵，构建出新闻相似性网络；头版新闻预测模块将H指数引入PageRank算法，根据相似性网络计算支持H-指数贡献矩阵，判断是否遍历完相似性网络，是则根据支持H-指数贡献矩阵迭代计算向量HR值，利用HR值对新闻进行权重排序，预测top-N条新闻作为头版新闻；

其中，头版新闻预测模块将H指数引入PageRank算法，根据相似性网络计算支持H-指数贡献矩阵，判断是否遍历完相似性网络，是则根据支持H-指数贡献矩阵迭代计算向量HR值，利用HR值对新闻进行权重排序，预测top-N条新闻作为头版新闻步骤，具体包括：

头版新闻预测模块对新闻进行权重排序，将预测top-N条新闻作为头版新闻，根据相似性网络计算支持H-指数贡献矩阵第i行j列的值v_j∈N(v_i)

其中，A_ij为网络邻接矩阵第i行j列的值，v_i为目标节点，v_j为v_i所属领域中的节点,D(v_j)为邻域中节点v_j的度,H(v_i)为目标节点v_i的H指数；

头版新闻预测模块遍历计算完相似性网络，根据邻接函数l(v_i,v_j)代表在G_SHCM网络中节点v_J在v_i领域N_SHCM(v_i)中的节点总数中的比重和支持H-指数贡献矩阵迭代计算向量HR值：

其中，d为阻尼系数，N_SHCM(v_i)为网络G_SHCM中节点v_i的领域，D_SHCM(v_j)为网络G_SHCM中节点v_j的度，Sort_i表示基于某种排序算法所得的排序序列中第i个元素，N为Top-N预测的预测长度；

网络G_SHCM中节点的数量N_SHCM＝|V_SHCM|，如果网络G_SHCM中节点v_i和网络G_SHCM中节点v_Jv_j不相邻，则邻接函数l(v_i,v_j)＝0，将HR值计算结果进行Top-N预测，得到低维文本特征向量表征R_i＝Sort_i,if iN。

2.如权利要求1所述的头版新闻预测分类方法，其特征在于：新闻报刊文本数据采集模块使用Python编写网络爬虫将网页新闻文本信息储存为“时间-标题-文本-版面号”的格式，并保存到本地。

3.如权利要求1所述的头版新闻预测分类方法，其特征在于：数据清洗模块将从网站获取的原数据中存在的“图片新闻”进行数据清洗，将原数据中的部分垃圾信息删除，随后对数据格式进行规则化，删除文本中的标点、空格，同时将时间转化为标准8位的形式YYYYMMDD。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所)，未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010845229.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于深度学习的多模态肝脏磁共振影像配准系统
下一篇：一种基于计算机视觉的机械自动化喷涂装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]头版新闻预测分类方法有效

专利文献下载