Beanbun 是什么
Beanbun 是用 PHP 編寫的多進(jìn)程網(wǎng)絡(luò)爬蟲框架,具有良好的開放性、高可擴(kuò)展性。
簡介
Beanbun 是一個簡單可擴(kuò)展的爬蟲框架,支持守護(hù)進(jìn)程模式與普通模式,守護(hù)進(jìn)程模式基于 Workerman,下載器基于 Guzzle。
框架名稱來自于作者家的貓,此貓名叫門丁,“門丁”是北方的一種面點(diǎn)。門丁 -> 豆包 -> bean bun
特點(diǎn)
- 支持守護(hù)進(jìn)程與普通兩種模式(守護(hù)進(jìn)程模式只支持 Linux 服務(wù)器)
- 默認(rèn)使用 Guzzle 進(jìn)行爬取
- 支持分布式
- 支持內(nèi)存、Redis 等多種隊(duì)列方式
- 支持自定義URI過濾
- 支持廣度優(yōu)先和深度優(yōu)先兩種爬取方式
- 遵循 PSR-4 標(biāo)準(zhǔn)
- 爬取網(wǎng)頁分為多步,每步均支持自定義動作(如添加代理、修改 user-agent 等)
- 靈活的擴(kuò)展機(jī)制,可方便的為框架制作插件:自定義隊(duì)列、自定義爬取方式...
更多建議: