2013年12月7日 星期六

活在當下

剛才邊上廁所邊上網查資料時...
小兒子跑進廁所問我:爸爸你在幹嘛?
我回答:在上網查資料啊
小兒子:爸爸你在上廁所啊

活在當下。

使用 python 分析網頁資訊

摘譯自
'My Data Is Big Because It Doesn't Load Into R': Why Python Is the Language of Web Science

當資料量大到不能直接交由 STATA/Excel(Google Drive)/R 分析網頁資料時,就該考慮使用 python 幫你預先處理資料格式,比如將資料庫資料轉為較通用的 csv 檔案格式,再將 csv 資料載入其他工具或函式庫做分析處理。

網頁科學會以統計學為各學科間的基礎,來進行分析、視覺化處理,客製化資料格式,也是用來搜集其他網頁,產生新集成資料的平台,在這領域因為還在發展階段,並不存在最佳解決方法,大家都還在討論、試圖理論化、實作並進行測試。

Python 的優點是好學好用,語法清楚,套件包山包海,有廣大的開源社群當你的智囊群。

底下的討論中 Todor Kazakov 提到 http://statace.com/ 提供 R 語言的雲端服務,讓 R 使用者可以將大量資料處理交給 statace 處理。

(譯註:看完發現 R 的資源也蠻多的啊 XD )