【網路爬蟲】想當免費仔嗎？不用錢的最貴！

Running a Web Crawler in a Docker Container – Shine Solutions Group

網路爬蟲(Web Crawler)是一種控制程式自動擷取網頁內容的技術，像是你想要每天早上擷取昨天上傳的財金新聞，就可以利用爬蟲去鉅亨網、Yahoo財經或經濟日報等網站進行爬取，整理後經由Email寄出，非常多語言都可以進行網路爬蟲，這邊就不進行舉例了。

投資交易網路爬蟲應用

投資交易領域最常爬取的就是股票的歷史資料了，在一般的日線開高低收的資料都算是容易爬取，像是臺灣證券交易所或美國NASDAQ，這兩個都算是好爬取的，但如果需要的是比日內更細的資料或股利調整後資料，這種大多就需要付費的來源了，如果每天執行爬蟲去爬也是可以，但是爬蟲掛掉的機率其實不小，因為對方網站都會定期改版，讓我們這種免費仔不容易爬取。

要有爬蟲掛掉的心理準備

過去我曾經有維護上百隻的網路爬蟲經驗，從各種資料來源網站擷取，當資料來源廣度到一定程度時，就會開始每天都在處理Bug，網頁輪流改版改到瘋掉，在執行爬蟲錯誤時，都會設計錯誤訊息並回傳到Email提醒，收到錯誤訊息收到都變成垃圾信了，如果你是想要利用爬蟲來抓取資料進行交易的話，務必小心資料的正確與缺漏。

雷大的Python投資筆記電子報

歡迎訂閱雷大的Python投資筆記電子報，每週將會發布定期市場分析文章與不定期的專案研究文章：

國際金融市場分析
量化交易策略分享
Python程式撰寫教學

立即訂閱最新文章

投資交易網路爬蟲應用

要有爬蟲掛掉的心理準備

延伸閱讀

金融資料API基本介紹

受保護的內容: 台指期現貨套利策略-Python程式範例

台指期現貨價差套利策略