☰

珍奧斯汀小說魅力爲何歷久不衰？　數據分析這樣說

圖文／鏡週刊

7月18日是英國小說家珍奧斯汀（Jane Austen）逝世兩百週年的日子。

她的作品膾炙人口，關於她的研究汗牛充棟。研讀英國文學，很多人也都是從她的《理性與感性》、《傲慢與偏見》想像小說應有的樣子。

如今拜科技之賜，有人想透過數據分析奧斯汀的用詞遣字，理解她小說魅力歷久不衰的秘密。

珍奧斯汀過世兩百年後，她的文字仍主導着龐大的文化產業。

從戲劇和電影的改編、同人小說（fan fiction，也就是利用類似角色情節場景做的二次創作）、相關文創商品、甚至旅遊行程，都圍繞着她和她的幾部小說。

她歷久不衰的魅力何在？她的文字有哪些她同輩作家不及之處？

美國史丹佛大學文學實驗室創辦人莫瑞提（Franco Moretti），專研用數據分析進行小說的研究，他認爲某些作品之所以能歷經時間的考驗而成爲經典，仰賴的是普通讀者的選擇。這種過程。類似於生物學物競天擇的演化。

文學史的形成，是因爲讀者喜歡文學作品中顯著的特徵而做出了選擇，讓它跨越世代存活。莫瑞提，美國史丹佛大學文學實驗室創辦人

那麼，讓奧斯汀顯得不凡的特徵是什麼，它們能否透過數據來衡量？我們能否用數據描繪出文學的天才？

紐約時報的兩名動態圖表編輯Kathleen A. Flynn和Josh Katz，最近在 Upshot 專欄裡發表了分析的結果。

奧斯汀的小說成就斐然，她寫作的創新之處，或許未完全受到和她同時代人們的理解。不過，她小說較早被注意到一個特色，是文字上自然主義的風格。

不同於奧斯汀當時風行的作品，她的場景沒有充滿鬼影幢幢的義大利古堡（她在《諾桑覺寺》裡曾經嘲笑哥德式小說的鬼怪設計）、沒有如《Clarissa》裡主角被浪蕩公子綁架、或《Cecelia》女主角繼承了附加怪異條件的遺產的這類懸疑情節。當時的歷史小說家史考特（Walter Scott）曾經讚美奧斯汀「取法自然的藝術，她彷彿真實存在市井小民的日常中並傳達給讀者，而不是出自想像的世界的華麗場景。」

紐約時報想要透過數據，繪出奧斯汀的自然主義的長相。

紐約時報選取的分析對象，是奧斯汀的六本小說，和125部出版於1710年到1920年之間的英語小說。它利用統計學的「主成份分析」技術，依據每一個作品使用的詞彙設計了一個平面的圖表。使用的字詞越相近的書，在圖上的位置就會越靠近。

根據這兩位研究者的說法，在水平軸上，越靠左側的是較抽象的，與心理狀態或社交關係相關字詞，例如：acquaintance（熟人）、affection（情感）、attended（出席）、conduct（舉止）、depended（依賴）、desire（慾望）、endeavoured（努力）、favour（喜愛）、gratitude（感謝）、indulgence（放縱）、merit（價值）、obliged（責任）、occasion（機緣）、prevailed（勝出）、received（接受）、resentment（憎恨）、resolution（決心）、resolved（堅定）、suffered（受苦）和virtue（美德）。

越是靠右邊，則是較具體的，與實體世界和感官知覺有關的，例如：blue（藍色）、close（接近）、dark（黑暗）、edge（邊緣）、empty（空洞）、fingers（指頭）、grass（草地）、head（頭）、hot（熱）、outside（外面）、picked（挑選）、rolled（滾動）、round（圓）、shoulder（肩膀）、slipped（滑動）、slowly（緩慢）、stand（站立）、top（頂端）、watch（表）和white（白色）。

至於在圖表的垂直軸，越往下是越類似中世紀通俗劇用到的英文，例如banquet（宴席）、beheld（看）、slain（殺）、sword（劍）、thee（你）。

而圖表往上，則是一些日常性的用詞，強調或比較的副詞像是quite（相當）、really（真的）、very（非常），以及與時間和情緒有關的詞：always（總是）、fortnight（兩星期）、week（星期）、awkward（笨拙）、decided（決定）、dislike（不喜愛）、glad（高興）、sorry（難過）、suppose（設想）。

從這張圖表來看，奧斯汀幾乎是自成一格。她的六部小說（《傲慢與偏見》、《理性與感性》、《愛瑪》、《曼菲德公園》、《說服》、《諾桑覺寺》）全部集中在圖的左上角。

根據研究者的分析，這張圖表顯示奧斯汀小說裡使用的詞，顯然是抽象的多過於實體的描述，而日常情境的用語也多於以中世紀爲場景的通俗劇詞彙。

從數據的分析看得出珍奧斯汀的小說用詞遣字有一些習慣的用語。但這是否就代表作家的個人風格？此外，光憑這個圖表，是否就足以說明小說歷久不衰、躍居經典的原因？

紐時的研究員認爲，或許我們需要更多的數據。

在另一項分析珍奧斯汀小說用字的研究報告中，它拿來與一批同時期英國小說以及1780年到1820年之間的小說做比較。

它發現了奧斯汀的用詞幾個明確的特點。

比如說，和其他同期作家相比，她使用了相對較多指涉女性的字如she、 her（她、她的）、 Miss（小姐）和sister（姊妹），這結果如果考量奧斯汀的小說主題，其實不難設想。另外，奧斯汀使用比例比其他作家更高的是一些強調作用的修飾字：像是very（非常）、much（很多）、so（如此）。這種強調詞的使用，與她寫作的一個重要特徵有關聯，而且這個特徵乍看之下很難用量化的方式分析，那就是反諷（irony）。

紐時的報導中提到，傳統上對奧斯汀的研究，多半會注意到她作品中「表象與本質之間的不相稱」。在小說裡頻繁使用「very」這個字的段落，往往可以察覺出它所說的字面的意思往往和實際的意思相沖突，這種誇飾強調正好微妙導引讀者去懷疑，明白一切並非字面看來。而這種反諷的手法，如今透過量化的數據分析，竟然也可以得到佐證。

紐約時報的分析，或許可以歸類爲隨着數據研究而興起的「文學的統計學研究」。過去最知名的是數據記者Ben Blatt的研究，他發現雷布萊伯利（Ray Bradbury，《華氏451》的作者）小說經常出現的詞是cinnamon（肉桂），小說家納博科夫（Vladimir Nabokov）最喜歡的字是mauve（錦葵），而托爾金的《哈比人》裡面，she這個字總共竟只出現一次。

這些分析結果，在一般人看來或許只是一些文學冷知識，學院傳統裡的學者也可能認爲它無關宏旨。不過，它確實也帶動了文學研究的一些改變。

去年牛津大學出版社，透過字詞的數據分析後，決定把莎士比亞同時代的作家馬羅，列爲莎翁名劇《亨利六世》的共同作者，成了震動莎翁研究的大新聞。

所以，這些看似無關文字、風格的統計數字，對於一個文學名著（或是失敗的作品）是如何構成的，或許提供了讀者不同面向的理解。

參考資料：

The Word Choices That Explain Why Jane Austen Endures（New York Times）

A journalist uses statistics to uncover authors' "cinnamon words"（PRI）

更多鏡週刊報導牛津開新例　莎翁名劇增列共同作者夜空下的GDP密碼　三名美國經濟學家破解中國數據之謎聽見金融海嘯的聲音... 網路新工具將圖表化爲鋼琴音階

珍奧斯汀小說魅力爲何歷久不衰？ 數據分析這樣說

相關資訊

珍奧斯汀小說魅力爲何歷久不衰？　數據分析這樣說