當Google鬼才遇上哈佛精英!Google Ngram帶你一秒看完15,000,000本書

2014⋅07⋅05
當Google鬼才遇上哈佛精英!Google Ngram帶你一秒看完15,000,000本書
1198次瀏覽
0則留言
2014⋅07⋅05
當Google鬼才遇上哈佛精英!Google Ngram帶你一秒看完15,000,000本書

人類從誕生那一刻起就在學習各種知識,並在閱歷無數後迎接生命的盡頭,這幾十年的時間,要怎麼把人類存在二十萬年所累積的智慧裝進腦袋裡呢?快試試從Google Ngram讀歷史吧!


把印刷術數位化!

Jean-Baptiste Michel

從發明印刷術到現在,共有一千五百萬本以上的書被發行,若真要吸收從古至今的智慧和知識,土法煉鋼地把這一千多萬本書全都讀過一遍是最直接的想法,但同時也是既費時又沒效率的不可能任務,究竟要怎麼省時又方便的獲得歷史知識呢?

就讀哈佛大學的Jean-Baptiste Michel 和 Erez Lieberman Aiden想到可以藉由把書籍數位化來增加閱讀效率,但如此一來就得面臨數百萬場與原著作者的官司糾紛,幾經討論後,他們決定從中挑選出五百萬本書,統計特定詞彙在1800年至2000年內所有出版書籍中所出現的次數,並藉此整理歷史數據的變化。這個由字量統計出的曲線圖不僅加快了資訊分析的效率,更產生了讓他們驚喜萬分的效果!


用關鍵字見證歷史

Jean-Baptiste Michel

只要輸入各行各業的職位名稱,就可以得知何種職位最常被熱烈討論及關注。一般而言,一個人的知名度會隨著時間增加,因此,若你想在年輕時成名,就應該去當位演員,因為你的人氣會從二十歲開始快速累積;如果你能耐心等待成名的漫長過程,就去當位作家,但若你想獲得最高、最久的知名度,就去當位政治人物吧,你將在50歲後獲得高知名度,去世後名氣還是會繼續上升。令人不勝唏噓的是,從圖表來看,千萬不要當數學家,因為不論年輕或上了年紀、有偉大成就或毫無貢獻,都沒有人會有興趣討論你。

Jean-Baptiste Michel

除此之外,還可以從圖表中看出歷史的痕跡。按常理來說,知名藝術家的名氣會隨著時間增加而討論度提高,但在德國的數據裡,超現實主義畫家Marc Chagall在1933年至1945年的出現率明顯驟降,之後卻又再度飆升,數據出現低谷的原因其實有跡可循,這12年的德國正經歷恐怖納粹的高壓統治,嚴峻的書籍審查制度阻隔了身為猶太人的Marc Chagall的作品,而這個制度直到二次大戰結束後才廢除,德國人民才得以接觸珍貴的超現實畫作。藉由書籍中的關鍵字,每一張圖表都無聲地向人們訴說真實存在的歷史。


書本裡的台灣

任職於Google的Jon Orwant、Matt Gray和Will Brockman見識到龐大規模的數據其實是研究人類文化的重要力量,因此利用保存在電子資料庫的一千五百萬本書及其他相關資料,建立了相似的分析工具──Ngram

用來建構系統的資料除了書籍、手稿、報紙等書面訊息之外,也有非文字的資料,如藝術品和畫作等,這些被留下來的一字一句,都成為驗證歷史軌跡的精彩紀錄。

Jean-Baptiste Michel

若你在Ngram輸入”Taiwan”,將可以看到台灣從1800年至2008年在英文書籍中出現的次數。在二次大戰結束後,台灣被討論的程度逐漸升高,自1960年代的經濟奇蹟,一直到1980年代被譽為「亞洲四小龍」,都有更多的書籍在討論著我們,但1990年代末期開始,曲線卻開始走下坡,這樣的消息一則以喜,代表台灣並未發生太嚴重的惡事,不像深陷金融困境的歐豬五國,困頓的經濟情況被許多經濟學家撰寫成書,成為他國國家發展的借鏡;但同時也一則以憂,因為台灣並未出現能震撼國際的高度經濟發展或優良社會規劃,以至於大部分英文書籍和資料都較少提及台灣。

Jean-Baptiste Michel 和 Erez Lieberman Aiden提醒大家,這樣的圖表確實能推測出許多事件的歷史背景,卻有更多細節需要深入驗證。雖然不能單用一張圖表就斷定某件事情的因果始末,卻可以從中反思歷史對於過去及未來的影響。看完關於台灣的數據分析,不如花些時間,好好思考你希望「Taiwan」這條線在下一個200年會如何變化吧!

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

撰稿:Maureen Wang

發佈於2014⋅07⋅05
1198次瀏覽
0則留言