【網路爬蟲】想當免費仔嗎?不用錢的最貴!

Running a Web Crawler in a Docker Container – Shine Solutions Group

網路爬蟲(Web Crawler)是一種控制程式自動擷取網頁內容的技術,像是你想要每天早上擷取昨天上傳的財金新聞,就可以利用爬蟲去鉅亨網、Yahoo財經或經濟日報等網站進行爬取,整理後經由Email寄出,非常多語言都可以進行網路爬蟲,這邊就不進行舉例了。

投資交易網路爬蟲應用

投資交易領域最常爬取的就是股票的歷史資料了,在一般的日線開高低收的資料都算是容易爬取,像是臺灣證券交易所或美國NASDAQ,這兩個都算是好爬取的,但如果需要的是比日內更細的資料或股利調整後資料,這種大多就需要付費的來源了,如果每天執行爬蟲去爬也是可以,但是爬蟲掛掉的機率其實不小,因為對方網站都會定期改版,讓我們這種免費仔不容易爬取。

要有爬蟲掛掉的心理準備

過去我曾經有維護上百隻的網路爬蟲經驗,從各種資料來源網站擷取,當資料來源廣度到一定程度時,就會開始每天都在處理Bug,網頁輪流改版改到瘋掉,在執行爬蟲錯誤時,都會設計錯誤訊息並回傳到Email提醒,收到錯誤訊息收到都變成垃圾信了,如果你是想要利用爬蟲來抓取資料進行交易的話,務必小心資料的正確與缺漏。


雷大的Python投資筆記電子報

歡迎訂閱雷大的Python投資筆記電子報,每週將會發布定期市場分析文章與不定期的專案研究文章:

  1. 國際金融市場分析
  2. 量化交易策略分享
  3. Python程式撰寫教學

立即訂閱最新文章