「Ebola Outbreak 2014」由Glrx – 上傳者自己的作品。基於CC BY 3.0經由Wikimedia Commons授權。
前幾天老婆問我伊波拉病毒的事,我說:「看過它的新聞」,老婆就開始緊張的說,最近要來台灣的沙發客應該都要注意是否有感染這個病毒才行,我說,海關應該會檢查到吧。直到今日我再次以預測為主題,找到了這篇「人算不如「演算」!WHO 發現的九天前,這套演算法就預測到伊波拉病毒的出現」,這篇文章提到:
搶先在人類之前。HealthMap,一個由波士頓兒童醫院開發出來,以資料驅動為基礎的地圖投影工具,在挖掘數千個以網頁為基礎的資料來源之後,偵測到一個「神秘的出血性發燒」。
共同創辦人 Clark Freifeld 說,操作 HealthMap 的時間已經超過八年了,而最重要的,就是讓 HealthMap 一直獲得利用網路 = 搜尋到大量的公開事件資料,換句話說,就是一直保持資料的豐富性和充足的來源。
- 演算的資料來源從哪來?
包括新聞報導、社交媒體、國際衛生組織、政府官方網站,以及在影響範圍內的衛生照護工作者的個人部落格等等;這個團隊以顧客建立的網路爬蟲(Web Crawler,又稱為網路蜘蛛,是一種『自動化瀏覽網路』的程式,是搜尋引擎的重要組成)阻礙了 RSS Feed(一個個能提供訂閱的網站內容,只要訂閱了一個 Feed,使用者就能即時看到所有此分類的標題,幫助讀者可以快速瀏覽並點選資訊觀看),從來源的內容文字,來分析疾病相關的術語及地理環境的線索。
更確切地來說,即使五年前,這樣的技術還是很難以想像;然而,伴隨著新穎的大數據潮流與機器智能,原本不可能的,都會在不遠的未來實現。
又是一個以大數據來做預測的應用,只要你是跟處理這一類問題相關的專業人才,你都可能藉此大發病毒財。不過這風險大,一不小心碰到就有可能身亡,比較安全一點的大數據運用,可能就像消費者行為之前的心理學這書提到的使用人的生理資料來預測購買行為,這可能比較方便,另外也有一種間接的方法,如同HealthMap利用公開的資料來預測,就是本文的篇名提到的,用部落格貼文來預測股市的漲跌,只要預測的夠準,獲利不是問題,這個技術已經開始實作測試,我則是在預測分析時代的Chapter 3 資料效應──資料多不見得有用的大眾情緒可以預測股市走勢看到,「他們計算2008年一百七十四個股市交易日的焦慮指數,以LiveJournal網站上總計超過二千萬篇貼文為資料,並對同期內標普500活動進行相關衡量。然後,他們應用諾貝爾經濟學得主格蘭潔(Clive Granger)為預測關係所設計的統計測試。」實際上,根據註解所言,其研究沒有預測標普500指數的漲跌,而是預測標普500指數的變動速率。
言歸正傳了,如果要搞大數據賺點錢,技術門檻應該不會低,雖然我也是資訊挖礦出身的工人,但是技術長久不用,總是有點退化,之前我的程式技術瓶頸在於處理大數據的程式要怎麼寫,相關的硬體該如何擴充,種種問題對我來說仍是未知數,可能繼續讀點書比較實在,寫點部落格貼文來騙騙想要以此招預測股市的人士,也可以,不然就是去出本大數據的書好了,反正目前榮景可期,最不得已才真的得熬夜寫隻程式,爬網路上的部落格貼文來預測台灣股市的漲跌了,不然金礦要怎麼挖?
嗯,最近選舉也滿熱的,不然用部落格貼文來預測選舉好了,我來試試看。