154 Intro to ETL
什麼是ETL?將多個系統中的資料整合到單一資料庫
ETL這個步驟介於原始資料來源和整理好的資料倉儲之間,也可以說是處理機器學習資料最早的步驟
ETL是一個縮寫,
- Extract(抽取): 把資料從某個地方拿出來
- 可以是各式檔案,這裡主要介紹 CSV,excel, database
- Transform(轉換): 將資料作轉換
- Load(載入): 把轉換完的資料丟到某個地方


參考資料: 你了解你在做機器學習時的資料嗎?資料前處理之ETL概念介紹
參考資料: Data Pipeline 101(三)—ETL
參考資料: 資料清洗
154/155 I/O CSV
常用資料分析 modules
- 複習: txt file input & output Ch5 (79-90)
- Pandas : a full data analysis library. Runs visualization and analysis (machine learning常用)
- Google sheet python API: a direct python interface for working with google spreadsheet