閱讀(1.6k) 書(shū)簽贊(0) 我要糾錯(cuò)

scrapy 2.3 檢查網(wǎng)頁(yè)的源代碼

2021-06-17 11:56 更新

有時(shí)您需要檢查網(wǎng)頁(yè)的源代碼（而不是 DOM ）確定所需數(shù)據(jù)的位置。

使用Scrapy's ?fetch? 命令下載Scrapy看到的網(wǎng)頁(yè)內(nèi)容：

scrapy fetch --nolog https://example.com > response.html

如果所需數(shù)據(jù)位于 ?<script/>? 元素，請(qǐng)參見(jiàn) 分析javascript代碼 .

如果你找不到想要的數(shù)據(jù)，首先要確保它不僅僅是垃圾：用HTTP客戶(hù)端下載網(wǎng)頁(yè)，比如 curl 或 wget 看看這些信息是否可以在他們得到的響應(yīng)中找到。

如果他們得到所需數(shù)據(jù)的響應(yīng)，請(qǐng)修改您的 Scrapy ?Request? 以匹配其他HTTP客戶(hù)端。例如，嘗試使用相同的用戶(hù)代理字符串 (?USER_AGENT? ）或者同樣的 ?headers? .

如果他們也得到了沒(méi)有所需數(shù)據(jù)的響應(yīng)，那么您需要采取措施使您的請(qǐng)求更類(lèi)似于Web瀏覽器的請(qǐng)求。見(jiàn) 復(fù)制請(qǐng)求 .

以上內(nèi)容是否對(duì)您有幫助：

寫(xiě)筆記

我要補(bǔ)充

推薦文章