Gecco网络爬虫 v1.3.0


Gecco 是一款用 java 语言开发的轻量化的易用的网络爬虫。Gecco 整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架,让您只需要配置一些 jquery 风格的选择器就能很快的写出一个爬虫。Gecco 框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。同时 Gecco 基于十分开放的 MIT 开源协议,无论你是使用者还是希望共同完善 Gecco 的开发者,欢迎 pull request。


主要特征:
简单易用,使用 jquery 风格的选择器抽取元素
支持爬取规则的动态配置和加载
支持页面中的异步 ajax 请求
支持页面中的 javascript 变量抽取
利用 Redis 实现分布式抓取,参考gecco-redis
支持结合 Spring 开发业务逻辑,参考gecco-spring
支持 htmlunit 扩展,参考gecco-htmlunit
支持插件扩展机制
支持下载时 UserAgent 随机选取
支持下载代理服务器随机选取
下载列表

版权声明:本文来源于互联网,如有侵权,请联系下方邮箱,一个工作日删除!