Learn Code With Mike

Python網頁爬蟲新手開發實戰

網頁資料爬取.清理&儲存.部署.應用

學會如何建置自動化網頁爬蟲，提升你2倍的資料工作效率

馬上加入課程

你想要蒐集網頁資料來分析，卻有以下的困擾嗎？

網頁種類多樣，不知道要怎麼爬取？

在網路上學了很多爬取的方法，實際上建置網頁爬蟲的時候還是爬不到資料...

網頁原始碼結構複雜，不知道要怎麼有效解析？

不知道要如何選擇適合的網頁爬蟲工具？

遇到反爬蟲機制的網頁不知道要怎麼爬取？

好不容易建置了網頁爬蟲，不知道要怎麼提升工作效率？

想要入門資料分析的領域，不知道要如何打造自動化的資料蒐集系統？

蒐集到大量的網頁資料，不知道接下來要怎麼進行應用或分析？

你需要的是一套成功資料人都在使用的網頁系統化爬取策略！

很多人會想要學習Python網頁爬蟲，無非就是希望能夠利用它自動化蒐集網路上的資料，來提升資料工作效率，或是藉此入門資料分析，進而轉職大數據分析或人工智慧(AI)的領域。

然而大部分的Python網頁爬蟲新手，雖然很認真的跟著網路上的教學實作，但是遇到新網頁的時候，還是不知道要怎麼下手開發？更不用說有反爬蟲機制的網頁，完全不知道要怎麼通過.....

我看到了這個痛點，如同看到多年前剛開始學習網頁爬蟲的自己，所以開設了《Python網頁爬蟲新手開發實戰課》，用實際的網站為例，教你各種網頁的系統化爬取策略，讓你遇到新網頁的時候，能夠舉一反三，輕鬆開發出Python網頁爬蟲，提升工作效率。

加入Python新手開發實戰課，你可以獲得什麼樣的成果？

建立自動化網頁爬蟲，提升你2倍的資料工作效率

即時取得網路上最新的資訊，做出有效的決策及應用

輕鬆入門數據分析的領域，提升職場競爭力

學會爬取新聞、電商、社群、財金及多媒體網站的資訊

有能力爬取非結構式的資料(圖片、影片、檔案)

有能力通過反爬蟲機制及降低被偵測封鎖的風險

清理、儲存爬取到的網頁資料(EXCEL、CSV、MySQL、Google BigQuery)

應用爬取到的網頁資料(商品評論語意分析、社群聲量分析、資料視覺化)

結合Google雲端平台定時自動化執行網頁爬蟲蒐集資料

有多個作品集，對外展現自動化蒐集數據的實力

我想加入《Python網頁爬蟲新手開發實戰課》

《Python網頁爬蟲新手開發實戰》11大章節詳細介紹

第一章節：基本觀念

此單元會來分享網頁爬蟲的基礎重要觀念，讓你在實務上面對各種網頁的時候，能夠舉一反三，順利建置出合適的網頁爬蟲專案。

1.1-章節簡介

1.2-認識網頁爬蟲

1.3-網頁的基本運作原理

1.4-網頁原始碼結構的重要觀念

1.5-網頁爬蟲工具的使用時機

1.6-網頁爬蟲的規範與開發流程

1.7-總結

第二章節：環境建置

此單元會一步一步帶你建置網頁爬蟲的開發環境，不用擔心過程中有東西不會設定，讓你可以順利建置出好的學習環境。

2.1-安裝Python 3

2.2-安裝程式開發工具

2.3-安裝Git版本控制工具

2.4-安裝網頁爬蟲套件

第三章節：靜態網頁

此單元會用新聞網站為例，教你靜態網頁的爬取方法、提升網頁爬蟲執行效率的技巧，透過實際爬取新聞資料，讓你學會爬取靜態網頁資料的同時，也能夠建置出穩定高效的網頁爬蟲專案。

3.1-章節簡介

3.2-什麼是靜態網頁?

3.3-批次爬取靜態網頁的資料

3.4-批次爬取子網頁的資料

3.5-批次爬取多分頁的網頁資料

3.6-提升網頁爬蟲效率的非同步技巧

3.7-提升網頁爬蟲效率的多執行緒技巧

3.8-5個優化網頁爬蟲穩定度的技巧

3.9-總結

第四章節：JavaScript型網頁

此單元會用三大財金網站為例，教你各種JavaScript型網頁的特性與爬取方法，透過實際爬取財金資料，讓你在面對JavaScript型網頁的時候，能夠分辨其中的不同，使用對的方法來爬取資料。

4.1-章節簡介

4.2-什麼是JavaScript型網頁?

4.3-批次爬取JSON格式的網頁資料(GET)

4.4-批次爬取JSON格式的網頁資料(POST)

4.5-批次爬取HTML型態的網頁資料

4.6-總結

第五章節：動態網頁

此單元會用電商網站為例，教你動態網頁的各種爬取方法，透過實際爬取商品、評論資料，讓你學會利用操作網頁來爬取動態載入的資料。

5.1-章節簡介

5.2-什麼是動態網頁?

5.3-批次爬取動態網頁的資料

5.4-動態網頁彈跳視窗的關閉方法

5.5-自動化移動滑鼠載入動態資料

5.6-批次爬取子網頁的資料

5.7-批次爬取多分頁的網頁資料

5.8-3個常見的動態網頁等待機制

5.9-總結

第六章節：登入型網頁

此單元會用社群網站為例，教你如何動態登入網頁、爬取登入後的網頁資料，透過實際爬取社群資料，學會爬取登入型網頁的資料。

6.1-章節簡介

6.2-什麼是登入型網頁?

6.3-自動化登入網頁的方法

6.4-瀏覽器彈跳視窗的關閉方法

6.5-自動化滾動捲軸載入動態資料

6.6-批次爬取登入型網頁的資料

6.7-總結

第七章節：多媒體型網頁

此單元會分別用圖片、影片、檔案型的網站，教你如何有效爬取網頁上的圖片、影片，以及自動化下載網頁上的檔案資料。

7.1-章節簡介

7.2-批次爬取網頁圖片

7.3-批次爬取網頁影片

7.4-自動化下載網頁CSV檔案資料

7.5-自動化下載網頁ZIP檔案資料

7.6-總結

第八章節：資料清理與儲存

資料蒐集完之後，最重要的就是要進行清理和儲存，後續才有辦法進行資料分析及應用，此單元會來和你分享常用的資料清理方法，以及網頁爬蟲如何介接各種儲存媒體來儲存爬取到的資料。

8.1-章節簡介

8.2-使用Pandas套件讀取網頁爬蟲資料

8.3-使用Pandas套件清理爬取的網頁資料

8.4-儲存網頁爬蟲資料到CSV檔案

8.5-儲存網頁爬蟲資料到Excel檔案

8.6-儲存網頁爬蟲資料到MySQL資料庫

8.7-儲存網頁爬蟲資料到Google BigQuery雲端資料庫

8.8-總結

第九章節：雲端部署與定時自動化執行

此單元會手把手帶你把網頁爬蟲專案部署到Google雲端平台，並且學會如何在雲端平台上定時自動化執行，進而提升工作效率。

9.1-章節簡介

9.2-建立雲端虛擬主機

9.3-建置雲端虛擬主機的環境

9.4-部署網頁爬蟲程式

9.5-定時自動化執行網頁爬蟲

9.6-總結

第十章節：反爬蟲機制攻略

反爬蟲機制一直都是網頁爬蟲新手的罩門，此單元會教你常見的反爬蟲機制通過方法，順利爬取到想要的資料。

10.1-章節簡介

10.2-隨機輪換Proxy IP

10.3-隨機輪換User Agent

10.4-網頁一般驗證碼的通過方法

10.5-網頁圖像驗證碼的通過方法

10.6-總結

第十一章節：資料應用

此單元會來教你如何應用爬取到的財金、社群、電商資料，透過實際的資料應用案例，讓你能夠快速入門資料分析的領域。

11.1-章節簡介

11.2-串接Google Data Studio (Looker Studio) 視覺化資料

11.2-社群網站資料應用-品牌聲量分析

11.3-電商網站資料應用-商品評論語意分析

我想加入《Python網頁爬蟲新手開發實戰課》

現在加入《Python網頁爬蟲新手開發實戰課》

還會附贈以下精美的贈品！

讓你有效學會網頁爬蟲技能

贈品#1：Python基礎語法大補帖

如果你是非本科系、沒學過Python程式語言，不用擔心！Python基礎語法大補帖包含了所有學習Python網頁爬蟲需具備的Python基本語法，並且搭配範例解說，讓你輕鬆上手Python程式語言，省下在網路上搜尋零散教學資源的時間，直接掌握Python程式語言的關鍵語法，進而順利學會Python網頁爬蟲，入門資料分析的領域。

贈品#2：Python網頁爬蟲終極學習藍圖