[发明专利]一种手机报中新闻内容的抽取方法及系统有效
申请号: | 201010515747.2 | 申请日: | 2010-10-15 |
公开(公告)号: | CN102457817A | 公开(公告)日: | 2012-05-16 |
发明(设计)人: | 吴新丽;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | H04W4/12 | 分类号: | H04W4/12;H04W88/02 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手机 新闻 内容 抽取 方法 系统 | ||
技术领域
本发明涉及一种数字信息的抽取方法及系统,尤其是涉及一种手机报中新闻内容的抽取方法及系统。
背景技术
2004年7月,国内第一家手机报《中国妇女报》诞生。2005年5月,国内首家省级手机报《浙江手机报》问世……一时间,手机报作为一种新兴媒体遍地开花。各大省级报业集团也纷纷把纸质媒体办上手机。近年来,手机报更是异军突起,市场规模不断扩大,活跃用户数迅速突破1.49亿,已成为了数字出版的新亮点。数据显示,截止2008年12月,我国手机报业务普及率已经达39.6%。在对手机报的重要性判断中,有近67.5%的用户认为手机报是传统报纸的补充,对于19.4%的用户而言,手机报已经与纸质报纸同样重要,有4.3%用户认为手机报在未来将取代报纸。
随着手机报业务的急剧增长,其问题也逐渐显现出来。目前手机报的内容主要来自全国报纸和地方报纸以及广告,再由电信运营商运营,其中缺乏有效的内容管理。电信运营商对手机报业务的发展有主导权,但是运营商属信息产业部管辖,但信息产业部并不是国家法律规定的新闻宣传管理机关,无法管理媒体内容。
传统的搜索引擎只能搜索查询互联网上发布的各种新闻信息,对于手机报信息爱莫能助。用户只能在手机上浏览手机报,不能将手机报内容采集到本地,也不能对手机报内容进行抽取分析后,提供给相应的业务应用系统使用。也就是说,用户无法对手机报的内容进行检索、分析和统计等处理。
发明内容
针对现有技术中存在的缺陷,本发明要解决的技术问题是提供一种手机报中新闻内容的抽取方法及系统,该方法及系统能够自动接收各种手机报,并对其内容进行抽取分析。
为解决上述技术问题,本发明采用的技术方案如下:
一种手机报中新闻内容的抽取方法,包括以下步骤:
(1)接收预先订阅的手机报信息,并将接收的手机报信息存储在本地,所述手机报的类型包括短信和彩信;
(2)从本地读取手机报信息;
(3)根据预先配置好的模板,抽取手机报信息中的新闻内容。
一种手机报中新闻内容的抽取系统,包括用于接收预先订阅的手机报信息,并将接收的手机报信息存储在本地的接收装置;
用于从本地读取手机报信息的读取装置;
以及用于根据预先配置好的模板,抽取手机报信息中的新闻内容的抽取装置。
本发明所述的方法及系统,能够自动接收各种手机报,并对其内容进行抽取分析,并将分析后的新闻内容的各数据项上传至数据库和对应的文件服务器中。本发明具有较高的采集效率和准确率,能够将只能在各个手机终端上浏览的手机报集中采集到本地,并能够对其进行智能分析处理,使得手机报信息得以能够被应用系统使用。
附图说明
图1是具体实施方式中手机报中新闻内容的抽取系统的结构和数据流图;
图2是具体实施方式中手机报中新闻内容的抽取方法流程图;
图3是具体实施方式中读取手机报信息的方法流程图;
图4是具体实施方式中短信类型的手机报信息抽取方法流程图;
图5是具体实施方式中彩信类型的手机报信息抽取方法流程图;
图6是具体实施方式中彩信类型的手机报一个文本文件的抽取方法流程图。
具体实施方式
下面结合具体实施方式和附图对本发明进行详细描述。
图1为概略表示本发明一实施方式中手机报中新闻内容的抽取系统结构及数据流图。如图1所示,该系统包括接收装置101,与接收装置101连接的读取装置102,与读取装置102连接的过滤装置I105,与过滤装置I105连接的抽取装置103,与抽取装置103连接的过滤装置II106,与过滤装置II106连接的提取装置107和分类装置108,与提取装置107和分类装置108连接的上传装置104,与上传装置104连接的数据库109文件服务器110。
接收装置101用于接收预先订阅的手机报信息。手机报的类型包括短信和彩信。对于短信类型的手机报,直接将手机报的属性信息和手机报内容存储在数据库中;对于彩信类型的手机报,将手机报的属性信息存储在数据库中,将手机报的实体文件(即记录手机报内容的文件)存储在本地磁盘上。所述手机报的属性信息包括特服号码、手机报实体文件的存储路径、手机报标题、手机报下载地址、信息到达时间、下载结束时间、下载结束状态(成功或失败)、该手机报在数据库中记录的唯一标识、手机报的类型等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010515747.2/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法