Python網頁爬蟲新手開發實戰

網頁資料爬取.清理&儲存.部署.應用

學會如何建置自動化網頁爬蟲,提升你2倍的資料工作效率

你想要蒐集網頁資料,卻有以下的困擾嗎?

  • 網頁種類多樣,不知道要怎麼爬取?
  • 在網路上學了很多爬取的方法,實際上建置網頁爬蟲的時候還是爬不到資料...
  • 網頁原始碼結構複雜,不知道要怎麼有效解析?
  • 不知道要如何選擇適合的網頁爬蟲工具?
  • 遇到反爬蟲機制的網頁不知道要怎麼爬取?
  • 好不容易建置了網頁爬蟲,不知道要怎麼提升工作效率?
  • 想要入門資料分析的領域,不知道要如何打造自動化的資料蒐集系統?

加入Python網頁爬蟲新手開發實戰課程

你將會學到


五種網頁類型的資料爬取

學會「靜態網頁」、「JavaScript型網頁」、「動態網頁」、「登入型網頁」與「多媒體型網頁」五種常見網頁類型的資料爬取,會分別使用新聞、財金、社群、電商、多媒體網站來做為範例。

爬取資料的清理與儲存

學會使用Pandas套件整理爬取的資料內容,並且有能力將資料存入檔案、資料庫、雲端資料庫(Google BigQuery)。

網頁爬蟲的部署

學會部署網頁爬蟲到Google雲端平台(Google Cloud Platform),並且定時自動化執行網頁爬蟲,蒐集想要的網頁資料。

爬取資料的應用

學會應用爬取的資料,包含:「資料視覺化」、「品牌聲量分析」、「商品評論語意分析」。

反爬蟲機制攻略

學會隨機切換IP位址、使用者代理(User Agent),以及通過驗證碼與圖像辨識等反爬蟲機制。

課程內容

11大單元(60+個教學影片)

課程使用步驟式的系統化教學,逐步引導新手完成課程範例和作業,不用擔心無法完成,學會5種網頁類型的自動化爬取技能與資料應用,並且克服反爬機制,提升你2倍的資料工作效率。

精心設計的課程作業練習

課程中有大量的作業練習,為了讓新手能夠有效學習,在每一個作業裡都有Mike精心整理的重要觀念筆記和步驟引導,在觀看教學影片後,馬上實際動手實作,加深對於技能的建立。

10+個作品集

課程範例、作業練習皆導入Git版本控制,上完課程的同時也擁有了自己的作品集,後續即可用在能力證明、轉職或兼職上。

學員專屬私密社團

課程有學員專屬的私密臉書社團,能夠與同好互相討論、交流、學習和分享自己的爬蟲作品外,Mike也會為大家解決學習上的問題,以及不定期舉辦Q&A + 學員專屬直播教學。

終身存取權限

只要加入課程,就可以終身無限次存取課程的所有內容和資源,並且,付費一次即可享有未來新增或更新的所有內容。

把握限時優惠

課程單元介紹

開始
  • 課程介紹
  • 社群規範
  • 學員專屬私密社團申請指南
  • 免責申明
第一章:基本觀念

此單元會來分享網頁爬蟲的基礎重要觀念,讓你在實務上面對各種網頁的時候,能夠舉一反三,順利建置出合適的網頁爬蟲專案。

  • 1.1-章節簡介
  • 1.2-認識網頁爬蟲
  • 1.3-網頁的基本運作原理
  • 1.4-網頁原始碼結構的重要觀念
  • 1.5-網頁爬蟲工具的使用時機
  • 1.6-網頁爬蟲的規範與開發流程
  • 1.7-總結
第二章:環境準備

此單元會一步一步帶你建置網頁爬蟲的開發環境,不用擔心過程中有東西不會設定,讓你可以順利建置出好的學習環境。

  • 2.1-安裝Python 3
  • 2.2-安裝程式開發工具
  • 2.3-安裝Git版本控制工具
  • 2.4-安裝網頁爬蟲套件
第三章:靜態網頁

此單元會用新聞網站為例,教你靜態網頁的爬取方法、提升網頁爬蟲執行效率的技巧,透過實際爬取新聞資料,讓你學會爬取靜態網頁資料的同時,也能夠建置出穩定高效的網頁爬蟲專案。

  • 3.1-章節簡介
  • 作業1:初始化專案
  • 3.2-什麼是靜態網頁?
  • 3.3-批次爬取靜態網頁的資料
  • 作業2:批次爬取靜態網頁的資料
  • 3.4-批次爬取子網頁的資料
  • 作業3:批次爬取子網頁的資料
  • 3.5-批次爬取多分頁的網頁資料
  • 作業4:批次爬取多分頁的網頁資料
  • 3.6-提升網頁爬蟲效率的非同步技巧
  • 3.7-提升網頁爬蟲效率的多執行緒技巧
  • 3.8-5個優化網頁爬蟲穩定度的技巧
  • 作業5:5個提升網頁爬蟲穩定度的技巧
  • 3.9-總結
第四章:JavaScript型網頁

此單元會用三大財金網站為例,教你各種JavaScript型網頁的特性與爬取方法,透過實際爬取財金資料,讓你在面對JavaScript型網頁的時候,能夠分辨其中的不同,使用對的方法來爬取資料。

  • 4.1-章節簡介
  • 作業6:初始化專案
  • 4.2-什麼是JavaScript型網頁?
  • 4.3-批次爬取JSON格式的網頁資料(GET)
  • 作業7:批次爬取JSON格式的網頁資料(GET)
  • 4.4-批次爬取JSON格式的網頁資料(POST)
  • 作業8:批次爬取JSON格式的網頁資料(POST)
  • 4.5-批次爬取HTML型態的網頁資料
  • 4.6-總結
第五章:動態網頁

此單元會用電商網站為例,教你動態網頁的各種爬取方法,透過實際爬取商品、評論資料,讓你學會利用操作網頁來爬取動態載入的資料。

  • 5.1-章節簡介
  • 作業9:初始化專案
  • 5.2-什麼是動態網頁?
  • 5.3-批次爬取動態網頁的資料
  • 作業10:批次爬取動態網頁的資料
  • 5.4-動態網頁彈跳視窗的關閉方法
  • 作業11:動態網頁彈跳視窗的關閉方法
  • 5.5-自動化移動滑鼠載入動態資料
  • 作業12:自動化移動滑鼠載入動態資料
  • 5.6-批次爬取子網頁的資料
  • 作業13:批次爬取子網頁的資料
  • 5.7-批次爬取多分頁的網頁資料
  • 作業14:批次爬取多分頁的網頁資料
  • 5.8-3個常見的動態網頁等待機制
  • 作業15:3個常見的動態網頁等待機制
  • 5.9-總結
第六章:登入型網頁

此單元會用社群網站為例,教你如何動態登入網頁、爬取登入後的網頁資料,透過實際爬取社群資料,學會爬取登入型網頁的資料。

  • 6.1-章節簡介
  • 作業16:初始化專案
  • 6.2-什麼是登入型網頁?
  • 6.3-自動化登入網頁的方法
  • 作業17:自動化登入網頁的方法
  • 6.4-瀏覽器彈跳視窗的關閉方法
  • 作業18:瀏覽器彈跳視窗的關閉方法
  • 6.5-自動化滾動捲軸載入動態資料
  • 作業19:自動化滾動捲軸載入動態資料
  • 6.6-批次爬取登入型網頁的資料
  • 作業20:批次爬取登入型網頁的資料
  • 6.7-總結
第七章:多媒體型網頁

此單元會分別用圖片、影片、檔案型的網頁,教你如何有效爬取網頁上的圖片、影片,以及自動化下載網頁上的檔案資料。

  • 7.1-章節簡介
  • 作業21:初始化專案
  • 7.2-批次爬取網頁圖片
  • 作業22:批次爬取網頁圖片
  • 7.3-批次爬取網頁影片
  • 作業23:批次爬取網頁影片
  • 7.4-自動化下載網頁CSV檔案資料
  • 作業24:自動化下載網頁CSV檔案資料
  • 7.5-自動化下載網頁ZIP檔案資料
  • 作業25:自動化下載網頁ZIP檔案資料
  • 7.6-總結
第八章:資料清理與儲存

資料蒐集完之後,最重要的就是要進行清理和儲存,後續才有辦法進行資料分析及應用,此單元會來和你分享常用的資料清理方法,以及網頁爬蟲如何介接各種儲存媒體來儲存爬取到的資料。

  • 8.1-章節簡介
  • 8.2-使用Pandas套件讀取網頁爬蟲資料
  • 作業26:使用Pandas套件讀取網頁爬蟲資料
  • 8.3-使用Pandas套件清理爬取的網頁資料
  • 作業27:使用Pandas套件清理爬取的網頁資料
  • 8.4-儲存網頁爬蟲資料到CSV檔案
  • 作業28:儲存網頁爬蟲資料到CSV檔案
  • 8.5-儲存網頁爬蟲資料到Excel檔案
  • 作業29:儲存網頁爬蟲資料到Excel檔案
  • 8.6-儲存網頁爬蟲資料到MySQL資料庫
  • 作業30:儲存網頁爬蟲資料到MySQL資料庫
  • 8.7-儲存網頁爬蟲資料到Google BigQuery雲端資料庫
  • 作業31:儲存網頁爬蟲資料到Google BigQuery雲端資料庫
  • 8.8-總結
第九章:雲端部署與自動化執行(Google Cloud Platform)

此單元會手把手帶你把網頁爬蟲專案部署到Google雲端平台,並且學會如何在雲端平台上定時自動化執行,進而提升工作效率。

  • 9.1-章節簡介
  • 9.2-建立雲端虛擬主機
  • 作業32:建立雲端虛擬主機
  • 9.3-建置雲端虛擬主機的環境
  • 作業33:建置雲端虛擬主機的環境
  • 9.4-部署網頁爬蟲程式
  • 作業34:部署網頁爬蟲程式
  • 9.5-定時自動化執行網頁爬蟲
  • 作業35:定時自動化執行網頁爬蟲
  • 9.6-總結
第十章:反爬蟲機制攻略

反爬蟲機制一直都是網頁爬蟲新手的罩門,此單元會教你常見的反爬蟲機制通過方法,順利爬取到想要的資料。

  • 10.1-章節簡介
  • 10.2-隨機輪換Proxy IP
  • 10.3-隨機輪換User Agent
  • 10.4-網頁一般驗證碼的通過方法
  • 10.5-網頁圖像驗證碼的通過方法
  • 10.6-總結
第十一章:資料應用

此單元會來教你如何應用爬取到的財金、社群、電商資料,透過實際的資料應用案例,讓你能夠快速入門資料分析的領域。

  • 11.1-章節簡介
  • 11.2-串接Google Data Studio (Looker Studio) 視覺化資料
  • 11.2-社群網站資料應用-品牌聲量分析
  • 11.3-電商網站資料應用-商品評論語意分析

把握限時優惠

除此之外,還有以下精美的贈品!

贈品#1:Python基礎語法大補帖

Python基礎語法大補帖裡面整理了開發網頁爬蟲所要具備的Python基礎語法,如果你是非本科系或程式新手,絕對能夠有效掌握Python程式語言的關鍵語法,進而能夠順利學會網頁爬蟲,入門資料分析的領域。

贈品#2:Python網頁爬蟲終極學習藍圖

Python網頁爬蟲終極學習藍圖,裡面幫你分類好每個階段的學習內容,你只要按照步驟一步一步的學習,就可以有效掌握網頁爬蟲的技能,而且在學習的過程會更有方向。

贈品#3:Python網頁爬蟲開發全攻略

Python網頁爬蟲開發全攻略裡面整理了每種網頁類型的爬取方式、反爬蟲機制的處理方式、以及系統化的爬取策略圖,幫助你在面對各種網頁的時候,可以依照裡面的策略及流程來開發網頁爬蟲,順利爬取到想要的資料。

贈品#4:Python網頁爬蟲技能檢核清單

Python網頁爬蟲技能檢核清單裡面列出了學會網頁爬蟲應該具備的能力,你可以利用這份清單,檢視自己是不是都已經具備對應的能力,而且不用擔心有漏掉什麼部分沒學習到。

贈品#5:學員專屬私密社團

課程也會提供學員專屬私密社團,你在學習的過程中有任何問題,都可以在社群裡面發問,所以不用擔心如果你碰到問題怎麼辦,在學習的路上不孤單,有一群夥伴一起學習。

所以加入課程你總共會獲得

  • Python網頁爬蟲新手開發實戰11個單元(70+個教學影片) (價值8,500+)
  • 贈品 1:Python基礎語法大補帖 (價值3,000+)
  • 贈品 2:Python網頁爬蟲終極學習藍圖 (價值1,500+)
  • 贈品 3:Python網頁爬蟲開發全攻略(價值2,000+)
  • 贈品 4:Python網頁爬蟲技能檢核清單 (價值1,500+)
  • 贈品 5:學員專屬私密社群 (價值2,000+)

總價值:NT$ 18500

現在限時優惠價:NT$ 6000

把握限時優惠

課程老師

你的Py教練 Mike

是一位網頁工程師,也是點Py學院、Learn Code With Mike的創辦人,持續分享Python的入門教學、爬蟲應用、資料分析、網頁開發教學,幫助想要學習Python程式語言的新手,透過小專案實作的教學方式,讓新手有能力開發出屬於自己的Python應用程式。

  • Learn Code With Mike創辦人
  • Python網頁爬蟲新手開發實戰課程老師
  • Facebook粉絲專頁累積近3000+人追蹤
  • 輔導45+位學生成功建立起自己的網頁爬蟲專案

把握限時優惠

常見問題

有哪些付款方式可以選擇?

我們結合綠界科技,支援線上刷卡(VISA, MasterCard, JCB)、網路ATM、ATM轉帳。

如果對於課程不滿意可以退款嗎?

只要加入課程,就會開通「課程平台」與「學員專屬臉書私密社團」權限,且此課程為資訊型產品,為保障智慧財產權,恕不接受退款,請考慮清楚唷,謝謝您的諒解。

如果是初學者,可以上這門課嗎?

這門課程就是以初學者的角度出發,從建立基本觀念開始,到小專案的實作,一步一步帶初學者上手,並且,有任何問題,都可以在學員專屬臉書私密社團提問,Mike會盡力為大家解答。

有問題要怎麼聯絡你們?

有任何問題歡迎透過粉絲專頁(https://www.facebook.com/learncodewithmike)或電子郵件(learncodewithmike@gmail.com)與我們聯繫。

© Learn Code With Mike版權所有