[发明专利]一种基于数字报纸的资讯数据分类方法有效
申请号: | 201510104637.X | 申请日: | 2015-03-10 |
公开(公告)号: | CN104679875B | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 姚洲鹏;陈法涌;陈嘉松;吴云峰 | 申请(专利权)人: | 杭州凡闻科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州凯知专利代理事务所(普通合伙)33267 | 代理人: | 邵志 |
地址: | 310022 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数字 报纸 资讯 数据 分类 方法 | ||
技术领域
本发明涉及一种基于数字报纸的资讯数据分类方法,主要用于新闻资讯数据的自动分类处理。
背景技术
数字与跨媒体出版系统的出现,并不仅仅是一场重大的技术革命,对传统的媒体思维和经营模式的推动也是直接的。但是,传统媒体的数字化进程存在的缺陷、局限与不足也是明显的,必须在进一步发展的过程中加以完善。大多数媒体并没有把网络技术作为转型升级的重要抓手,依然停留在当年对手机报纸和电子版的认识层面。
新闻媒体同样处在网络信息爆炸的时代,平均每天新增数十万条新闻报道及数字页面,编辑记者要快速的定位自己所需的信息已经很难,浏览网页、复制、粘贴等重复工作需要占用每天60%以上的时间。
信息量的浩瀚,让人们越来越离不开搜索引擎的同时,人们对搜索引擎的智能化、个性化的要求也变的越来越高,现有的搜索引擎已经不能满足人们日常的信息获取需求,他们需要的是更加精准,更加个性化的信息和资讯。
发明内容
本发明的目的在于提供一种基于数字报纸的资讯数据分类方法,使得采集到的数据能够自动进行处理,最终实现数据的精准分类,同时也为后期的数据精准化和个性化推送打好基础。
本发明所采用的技术方案是:一种基于数字报纸的资讯数据分类方法,包括:
A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息,以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图;
B、将提取的信息入至数据库中,并根据出版日期和版次信息在数据库内部建立关联关系;
C、按照上述方法,利用数据库中的时间维度汇聚每种报纸一段时间内的数据,基于全文检索引擎技术,针对同一种报纸中版面名称相同的版面进行重名合并处理;
D、根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系;
E、按照步骤D的对应关系,将数据库中、版面名称包含有某一关键词的版面内的所有文章自动归类至对应的类别下。
所述的基于数字报纸的资讯数据分类方法,还包括:
F、根据用户需求设置过滤条件,并基于全文检索引擎技术过滤干扰信息,生成最终的数据集合。
所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。
所述根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系包括:
针对每种报纸的不同属性,设定若干大类别,然后针对每个大类别设定若干细分类别;
在各细分类别下设定若干关键词,建立起细分类别与关键词之间的对应关系。
一种基于数字报纸的资讯数据分类方法,包括:
A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息,以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图;
B、将提取的信息入至数据库中,并根据出版日期和版次信息在数据库内部建立关联关系;
C、按照上述方法,利用数据库中的时间维度汇聚每种报纸一段时间内的数据,基于全文检索引擎技术,针对同一种报纸中版面名称相同的版面进行重名合并处理;
D、根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,再针对每个关键词建立一个对应的专用分词库,建立起类别、关键词和专用分词库之间的对应关系;所述分词库由若干版面名称组成,且位于同一专用分词库内的版面名称包含有与该分词库对应的关键词;
E、将所提取的版面名称与专用分词库内存储的版面名称进行比对,对于版面名称能够在专用分词库内找到匹配项的版面,按照步骤D的对应关系,将该版面内的所有文章归类至与该分词库对应的类别下;对于版面名称无法在专用分词库内找到匹配项的版面,按照版面名称包含有关键词的对应关系,将其版面名称与至少一个关键词对应,然后按照步骤D的对应关系,将该版面内的所有文章归类至与该关键词对应的类别下,同时在该关键词对应的专用分词库内加入该版面名称以增加专用分词库内的分词量。
所述的基于数字报纸的资讯数据分类方法,还包括:
F、根据用户需求设置过滤条件,并基于全文检索引擎技术过滤干扰信息,生成最终的数据集合。
所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。
所述根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州凡闻科技有限公司,未经杭州凡闻科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510104637.X/2.html,转载请声明来源钻瓜专利网。