[发明专利]新闻内容推送方法、装置、存储介质及计算机设备在审

专利信息
申请号: 202011047397.1 申请日: 2020-09-29
公开(公告)号: CN111898034A 公开(公告)日: 2020-11-06
发明(设计)人: 甘宇;夏志超;王君;张雷;袁海光;李振刚;刘斯凡 申请(专利权)人: 江西汉辰信息技术股份有限公司;深圳京发科技控股有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/335;G06F16/33;G06F40/289;G06F40/284;G06K9/62;G06F16/955
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 彭琰
地址: 330000 江西省南昌市南昌高新技术产业开发区*** 国省代码: 江西;36
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 新闻 内容 推送 方法 装置 存储 介质 计算机 设备
【权利要求书】:

1.一种新闻内容推送方法,其特征在于,所述方法包括:

获取多个新闻url链接,并解析得到对应的多个文本内容;

对每个所述文本内容进行分词并提取名词性词语;

采用多种关键词提取算法对当前文本内容的名词性词语进行关键词提取,得到每种方法对应提取的多个关键词,根据每种方法提取的所述关键词累计查重,并确定重复数最多的若干目标关键词;

将所述目标关键词与所述文本内容匹配,并在所述文本内容中筛选出只含有所述目标关键词的关键词文本并作为文本特征;

通过计算不同的所述文本内容的文本特征之间的相似性对预测模型进行训练,得到各个文本内容之间的相似度值,利用训练后的预测模型对待查询文本进行预测,得到与各个所述文本内容对应的相似度值;

对各个所述文本内容的相似度值排序,获取并推送若干篇相似度值最高的所述文本内容对应的新闻。

2.根据权利要求1所述的新闻内容推送方法,其特征在于,获取所述文本内容的步骤包括:

获取网页的根节点;

若所述根节点下存在子节点,则获取所述根节点下所有子节点,

统计子节点下句号的总数,并取句号最多的子节点作为下级筛选节点;

获取所述下级筛选节点中句号的总数与所述根节点的句号总数比值;

若比值大于预设值,则将所述下级筛选节点作为新的根节点,并返回执行获取所述根节点下所有子节点的步骤。

3.根据权利要求2所述的新闻内容推送方法,其特征在于,所述获取网页的根节点的步骤之后还包括;

若所述根节点下不存在子节点,则获取当前子节点上一级节点的所述文本内容。

4.根据权利要求2所述的新闻内容推送方法,其特征在于,所述比值小于或等于预设值时,还包括以下步骤;

获取所述当前下级筛选节点的上一级节点的所述文本内容。

5.根据权利要求1所述的新闻内容推送方法,其特征在于,所述关键词提取的算法为TF-IDF、Textrank、LDA中的任意一种。

6.根据权利要求1所述的新闻内容推送方法,其特征在于,所述利用训练后的预测模型与待查询文本进行预测的步骤之前还包括:

获取待查信息,将所述待查信息进行分词并提取名词性词语,采用所述关键词提取算法对所述待查信息的名词性词语提取,得到多个待查关键词;

根据每种方法提取的所述待查关键词累计查重,并确定重复数最多的若干待查目标关键词;

将所述待查目标关键词与所述待查信息匹配,并在所述待查信息中筛选出只含有所述待查目标关键词的待查关键词文本并作为文本特征。

7.一种新闻内容推送装置,其特征在于,所述装置包括:

第一获取模块,用于获取文本内容;

分词模块,用于获取所述文本内容分词提取的名词性词语;

第二获取模块,用于获取多种关键词提取算法对当前文本内容的名词性词语进行关键词提取,得到每种方法对应提取的多个关键词,根据每种方法提取的所述关键词累计查重,并确定重复数最多的若干目标关键词;

匹配模块,用于将所述目标关键词与所述文本内容匹配,并在所述文本内容中筛选出只含有所述目标关键词的关键词文本并作为文本特征;

训练模块,用于将计算不同的所述文本内容的文本特征之间的相似性对预测模型进行训练,得到各个文本内容之间的相似度值,利用训练后的预测模型对待查询文本进行预测,得到与各个所述文本内容对应的相似度值;

筛选模块,用于对各个所述文本内容的相似度值排序,获取并推送若干篇相似度值最高的所述文本内容对应的新闻。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西汉辰信息技术股份有限公司;深圳京发科技控股有限公司,未经江西汉辰信息技术股份有限公司;深圳京发科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011047397.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top