MI
mickeyouyou/mini_spider
mini_spider
迷你定向网页抓取器
数据收集过程中,经常需要对一些网站进行定向抓取。该网页抓取器是一个根据指定页面,指定抓取模式(正则)的抓取器,可以优雅地将多级的页面内容抓取保存到本地。抓取页面过程中遇到异常,记录到日志文件。
特性
- 可配置
- 可配置的抓取模式,正则匹配目标;
- 可配置爬取深度;
- 可配置的抓取间隔,防止被封IP;
- 抓取超时;
- 高性能
- 多线程抓取
- 优雅运行,页面异常记录日志,不影响正常逻辑;
借助于python各种强大的库,使用python做定向抓取比较简单。该工具是一个python开发的迷你定向抓取器mini_spider.py,实现对种子链接的抓取,并把URL长相符合特定pattern的网页保存到磁盘上。
快速开始
python mini_spider.py