[发明专利]一种网络新闻概要提取方法有效
申请号: | 201610323611.9 | 申请日: | 2016-05-16 |
公开(公告)号: | CN106021442B | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 梁军;张飞云;陈龙;马世典;蔡英凤;刘擎超;陈小波;周卫琪;袁朝春;景鹏 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/583;G06F17/27;G06N3/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种网络新闻概要提取方法,首先获取网络新闻,对网络新闻中的文字基于中文词汇链提取关键词,基于深度学习算法进行图片分类;建立新闻ID,新闻入库;新闻对比。本发明根据网络新闻中的文字信息提取关键摘要并对新闻图片进行分类,形成新闻ID,实现了一篇新闻对应一项新闻ID,极大降低了系统的存储要求,提高了存储效率。通过所提及的新闻库的不断实时更新以及提供的快速查询与添加等功能,提高了检索新闻的效率,极大降低了工作人员查看、评价新闻的工作量,起到了有效的新闻甄别辅助工作。 | ||
搜索关键词: | 一种 网络新闻 概要 提取 方法 | ||
【主权项】:
1.一种网络新闻概要提取方法,其特征在于,包括以下步骤:(1)获取网络新闻;(2)对网络新闻中的文字基于中文词汇链提取关键词;(2.1)设定抽取关键词个数k,词语相似度阈值δ,特征频率阈值ε;(2.2)预处理文档集,包括分词、词性标注和词过滤,并对每个词的特征频率TF和文档频率DF进行统计;(2.3)选择文本中预处理后的词w1,w2,..,wn作为候选词汇集,并取w1构建初始词汇链L1;对于未被《同义词词林》收录的词汇,但特征频率TF大于特征频率阈值ε的词单独归为词汇链L0;(2.4)对候选词汇集的词wi(i∈[2,n])依次进行提取,构建词汇链Li,依次计算它与除词汇链L0之外的词汇链Li(i∈[2,n])的语义扩展度exp(wi,Lj),该词与某词汇链Lj中所有词的语义扩展度最大值作为该词汇链的扩展度S(wi,Lj);然后对每个S(wi,Lj)进行比较,选取其中的最大值作为该词与所有词汇链的语义扩展度exp(wi,L),即式中,nj为词汇链Lj中包含词汇的个数;m为词汇链的条数;wjk为词汇链Lj中第k个词汇;词汇间语义扩展度exp(wi,Lj),exp(wi,Lj)表示词汇wi与词汇链Lj的语义扩展度;(2.5)将语义扩展度exp(wi,Lj)的最大值和预设的词语相似度阈值δ作比较,如果exp(wi,Lj)的最大值大于δ,就把词wi加入到对应的词汇链Lj中;如果语义扩展度exp(wi,Lj)最大值小于δ,就创建一个新词汇链,并把词wi加入到该新建的词汇链中;(2.6)对全部候选词汇依次进行计算,重复步骤(2.4)到步骤(2.6),直到全部词汇计算完毕;(3)基于深度学习算法进行图片分类;首先,采集图像,对获取的图像进行标注,构建卷积神经网络结构,将标注好的图像送至构建的卷积神经网络中,进行训练;输出新闻分类结果;(4)建立新闻ID,新闻入库;(5)新闻对比;(5.1)用户输入需要搜索的相似新闻个数K以及输入待对比且未录入新闻库的一则新闻;(5.2)经过步骤(2)、(3)、(4),建立待对比且未录入新闻库的一则新闻的新闻ID,并入库;根据该新闻的图片,利用基于深度学习的图片分类中的soft‑max函数输出K个由高到低的函数值,对应于该新闻相似程度由高到低的K个新闻,输出K个新闻的新闻ID;(5.3)对输出K个新闻的新闻ID进行判断,若为同一类则输出所述的K个新闻作为相似新闻,若不是同一类,则重复步骤(5.2)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610323611.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种油墨桶搬运小车
- 下一篇:一种网页运行方法及装置、终端