[发明专利]一种实时新闻的展现装置及其方法无效
申请号: | 201210360101.0 | 申请日: | 2012-09-25 |
公开(公告)号: | CN102929932A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 李德聪;杨青;方庆安 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 程殿军 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 新闻 展现 装置 及其 方法 | ||
1.一种实时新闻的展现装置,其特征在于,主要包括新闻采集和预处理模块、新闻分频道模块、实时新闻处理模块、实时新闻存储模块和前端模块;其中:
新闻采集和预处理模块,用于实时的从互联网采集新闻,并进行预处理;
新闻分频道模块,用于对所采集的新闻划分频道;
实时新闻处理模块,用于将采集的新闻进行处理,并按其频道存储于相应的存储区;
实时新闻存储模块,用于存储实时新闻并向前端模块发送更新信号;
前端模块,用于滚动展示所述的实时新闻。
2. 一种实时新闻的展现方法,其特征在于,包括:
A、实时采集新闻并进行预处理;
B、对所采集的新闻进行分频道,即对所采集的新闻按主题类别进行自动化分类;
C、将所采集的新闻进行处理,并按其频道标签分别存储于相应的存储区;
D、存储新闻并实时更新前端模块,滚动展示所述的实时新闻。
3.根据权利要求2所述的实时新闻的展现方法,其特征在于,步骤A所述实时采集新闻并进行预处理的过程,具体包括:
A1、通过爬虫采集目标网站列表中的网页页面;
A2、对所采集到的原始网页做页面分析,抽取出标题、正文、摘要、作者、来源、发表时间的信息,并组织成结构化信息
A3、根据所述的标题和正文,分别记录签名。
4.根据权利要求3所述的实时新闻的展现方法,其特征在于,步骤A3 所述的签名的特点是:对于相似度较高的文本,产生相同的签名。
5.根据权利要求2所述的实时新闻的展现方法,其特征在于,步骤B所述对采集的新闻分频道即分类的过程为:
采用预先专门训练的朴素贝叶斯分类器,抽取网页的标题、正文、url的特征,并结合预设的规则,判定当前周期内所采集到的各网页是否属于新闻,如果是,则判其归属其中的一个频道,并填写频道标签;否则,不处理。
6.根据权利要求5所述的实时新闻的展现方法,其特征在于,所述频道分为国内、国际、社会、财经、体育、娱乐、汽车、科技和互联网类,以及焦点频道。
7.根据权利要求2所述的实时新闻的展现方法,其特征在于,步骤C所述对所采集的新闻进行处理的过程,包括:
C1、获取当前周期内的所采集的新闻,根据新闻标题签名、正文签名信息,与当前维护的实时新闻签名集合比对,进行去重;
C2、对各频道队列的可写拷贝进行加写锁,并将各可写拷贝内超过预设时长的过时新闻删除;
C3、根据新的新闻的频道标签,将其分别加入各频道的可写拷贝中,并将各可写拷贝内的新闻按时间进行倒序排序,然后解除写锁。
8.根据权利要求2所述的实时新闻的展现方法,其特征在于,步骤D所述更新前端模块并滚动展示所述实时新闻的过程为:
D1、找到指定频道的队列,对当前可读拷贝加读锁;
D2、从可读拷贝读取前N条新闻,解除读锁;
D3、更新前端模块中的实时新闻列表;
其中,N为自然数。
9.根据权利要求2、7或8所述的实时新闻的展现方法,其特征在于,所述的步骤均需周期性执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210360101.0/1.html,转载请声明来源钻瓜专利网。