[发明专利]一种文章采集的方法无效
申请号: | 201010618421.2 | 申请日: | 2010-12-31 |
公开(公告)号: | CN102096705A | 公开(公告)日: | 2011-06-15 |
发明(设计)人: | 曾文语;林雅珊 | 申请(专利权)人: | 南威软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 泉州市文华专利代理有限公司 35205 | 代理人: | 车世伟 |
地址: | 362000 福建省泉州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种文章采集的方法,先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布;本发明根据用户自定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或文章,转化为结构化的记录保存或用于内部使用或外网发布,能快速实现外部信息的获取,对各类网站新闻的采集具有较快的速度和较高的准确率。 | ||
搜索关键词: | 一种 文章 采集 方法 | ||
【主权项】:
一种文章采集的方法,其特征在于包括如下步骤:先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南威软件股份有限公司,未经南威软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010618421.2/,转载请声明来源钻瓜专利网。
- 上一篇:用于估计地层各向异性常数的模态色散的多频率反转
- 下一篇:车辆乘用的雷达感测