GitHunt
MI

mickeyouyou/mini_spider

mini_spider

迷你定向网页抓取器

数据收集过程中,经常需要对一些网站进行定向抓取。该网页抓取器是一个根据指定页面,指定抓取模式(正则)的抓取器,可以优雅地将多级的页面内容抓取保存到本地。抓取页面过程中遇到异常,记录到日志文件。

特性

  • 可配置
    • 可配置的抓取模式,正则匹配目标;
    • 可配置爬取深度;
    • 可配置的抓取间隔,防止被封IP;
    • 抓取超时;
  • 高性能
    • 多线程抓取
  • 优雅运行,页面异常记录日志,不影响正常逻辑;

借助于python各种强大的库,使用python做定向抓取比较简单。该工具是一个python开发的迷你定向抓取器mini_spider.py,实现对种子链接的抓取,并把URL长相符合特定pattern的网页保存到磁盘上。

快速开始

python mini_spider.py

Languages

Python100.0%

Contributors

Created August 6, 2019
Updated October 7, 2021