本文轉(zhuǎn)載至知乎ID:Charles(白露未晞)知乎個人專欄
本文轉(zhuǎn)載至知乎ID:Charles(白露未晞)知乎個人專欄
下載W3Cschool手機App,0基礎隨時隨地學編程>>戳此了解
導語
利用python爬取魚C論壇最新熱門帖子信息并做簡要分析,相信很多人對魚C論壇并不陌生吧,畢竟小甲魚出品的課程對新手還是很友好滴,基本上都是褒多貶少的狀態(tài)。
讓我們愉快地開始吧~
相關(guān)文件
開發(fā)工具
Python版本:3.6.4
相關(guān)模塊:
requests模塊;
pyecharts模塊;
jieba模塊;
wordcloud模塊;
以及一些Python自帶的模塊。
環(huán)境搭建
安裝Python并添加到環(huán)境變量,pip安裝需要的相關(guān)模塊即可。
原理簡介
抓取目標:
魚C論壇最新熱門帖子信息:

通過requests模塊+正則表達式即可實現(xiàn)抓取所有帖子的信息了。
分析目標:
將抓取到的帖子信息數(shù)據(jù)可視化,看看如何發(fā)帖子才能上魚C熱門。
主要通過pyecharts和wordcloud模塊來實現(xiàn)信息數(shù)據(jù)的可視化分析。
結(jié)果展示
信息抓?。?/span>
在cmd窗口運行FCSpider.py文件即可,效果如下圖所示:

數(shù)據(jù)分析:
在cmd窗口運行analysis.py文件即可。
首先讓我們來看看魚C論壇哪個版塊的內(nèi)容更容易上熱門:

顯然,Python大哥獨占鰲頭,占了魚C論壇所有熱貼數(shù)量的56.19%,因此想上魚C論壇的熱貼,當然首選Python主題??!
或許有人會說,帖子數(shù)量說明不了問題啊,萬一是有人惡意刷帖呢?(一個可能不太合適的比方),那么我們再來分析分析每個帖子的參與人數(shù)、回復量和查看量吧!
首先是參與人數(shù)(均未去重):

其中參與人數(shù)最多的10個熱帖中Python的占比也很高,為:

因此從參與人數(shù)上看,python依舊無出其右,一枝獨秀。
再來看看回復量和查看量:


結(jié)論依舊沒有變,看來想在魚C論壇混個熱帖,發(fā)python主題是最佳選擇。
最后,我們將所有熱門主題的標題制作成詞云,看看如何才能成為一名合格的"標題黨":

OK,可以愉快地去水貼拿熱門了~
完整源代碼和結(jié)果詳見相關(guān)文件。
更多
代碼在2018年8月31日前測試無誤