[发明专利]一种文章采集的方法无效
申请号: | 201010618421.2 | 申请日: | 2010-12-31 |
公开(公告)号: | CN102096705A | 公开(公告)日: | 2011-06-15 |
发明(设计)人: | 曾文语;林雅珊 | 申请(专利权)人: | 南威软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 泉州市文华专利代理有限公司 35205 | 代理人: | 车世伟 |
地址: | 362000 福建省泉州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文章 采集 方法 | ||
技术领域
背景技术
文章采集是根据用户定义的关键词字,从各式各样的网站上检索出相关的数据,并对数据进行合理的截取、分类、去重和过滤,然后以文件或数据库的方式保存下来。
文章采集应用的关键在于如何从众多的网站获取所需要的准确内容到预期的中心资源库中,然后进行快速的利用。文章采集的核心技术是模式定义和模式匹配。模式属于人工智能的术语,是对前人积累的经验的抽象和升华。简单地说,就是从不断重复出现的事件中发现和抽象出的规律,是解决问题的经验的总结。只要是一再重复出现的事物,就可能存在某种模式。文章采集的模式大多不是程序自动发现的,目前几乎所有的文章采集产品都需要通过人工来定义。但模式本身是个很复杂、很抽象的内容,所以所有的开发者精力都花在怎样让模式定义更简单、更准确上,这也是文章采集技术竞争力的衡量标准。目前大多采用正则表达式定义和文档结构定义。
传统的文章采集存在几个方面的问题:1、采集的是整篇文章,需要手工进行页面处理才能被利用;2、不能分栏目采集;3、只支持单一站点的采集;4、采集的文章不能自动套用自己网站的格式进行发布,需要进行手工处理。
发明内容
本发明的目的在于提供一种文章采集的方法,支持网站群的多站点采集,可针对文章进行分段采集和分栏目采集,采集的文章能自动套用自己网站的格式进行发布,不需要进行手工处理。
一种文章采集的方法,具体包括如下步骤:先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。
所述的采用正则表达式制定采集规则,是指输入需要采集的静态页面地址,确定地址中到第N个“/”为需要被采集的静态文件内容的地址,并将其自动转换成正则表达式规则。
所述的关键信息处理方式,指确定需要采集内容的文章标题或者关键信息的字符串位置。
本发明采用正则表达式定义的方式,根据用户自定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或文章,转化为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取,对各类网站新闻的采集具有较快的速度和较高的准确率。本发明可在自动、手动两种模式下运行,自动由系统定期到指定的站点更新最新的信息,手动提供了及时触发的机制;支持不同的信息采集使用不同的模式。
本发明对传统的文章采集技术进行改进,真正满足了用户的应用需求:1、可以针对文章进行分段采集,只获取所需要的内容;2、每个栏目都可以定制相应的采集任务,文章采集后自动存放在对应栏目下;3、采用多线程技术,支持网站群的多站点采集;4、结合模板引擎技术,文章采集后可以自动套用网站模板进行自动发布。
附图说明
图1为本发明的逻辑流程图。
图2为本发明实施例中采集内容的字符串位置示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
如图1所示,本发明一种文章采集的方法,具体包括如下:
先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定。
所述的采用正则表达式制定采集规则:指输入需要采集的静态页面地址,该路径指向待采集页面的某个栏目中的其中一篇文章,确定第N个“/”开始下的内容,自动转换成正则表达式规则,符合表达式规则的静态文件内容将被采集。
所述的关键信息处理方式:指确定需要采集内容的文章标题或者关键信息的字符串位置(如图2举例所示)。由于每个网站内容展示位置不一样,在配置采集时需先找到所要采集内容的字符串位置,才能准确地采集到数据。
所述的将采集的内容和目标站点的栏目进行绑定:就是用户在采集配置中,用户需选择所属栏目,或在创建栏目时,用户可选择指定的文章模板,开始采集时,通过栏目找到指定的文章模板,在发布时合并生成静态页面。
开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南威软件股份有限公司,未经南威软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010618421.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于估计地层各向异性常数的模态色散的多频率反转
- 下一篇:车辆乘用的雷达感测