如果说日常生活中人们只是凭觉得统计,那么统计学家就能无限发挥他们的打算能力,而这也产生了一门交叉学科,叫Digital Humanities(数字人文学):用统计学探究人文学。在《欢快数学》这本书中,作者结合自己的“烂插画”轻松描述了这门学科的特点。这位作者是有名博主,当然,他也带着好奇网络自己的文章,用统计的方法测试了自己在别人眼中的性别。
好玩归好玩,作者对付统计学能把文学作品“吃透”感到担忧,但他也利用统计学得出来的结论完善了自己的这本书。以是统计技能能与更古老、更丰富、更人性化的措辞理解办法和谐相处吗?
下文摘编整理自《欢快数学:一本充满“烂插画”的快乐数学启蒙书》,经出版社授权刊发。内容有删减,小标题为摘编者所加。
《欢快数学》,[美]本·奥尔林 著 唐燕池 译 未读 | 天津科学技能出版社 2021年6月版
一头叫作数字人文学的怪兽
生命的图书馆里有一头叫作数字人文学(Digital Humanities)的怪兽,它拥有文学评论家的身体、统计学家的头脑,以及生理学家史蒂芬·平克(Seven Pinker)的一头乱发。有些人把它当作射入阴郁洞穴的一束光,并为之欢呼;而另一些人则把它视为流着口水啃着初版《包法利夫人》的狗,对它不屑一顾。以是,这只怪兽是做什么的呢?
很大略:它将书本转换成数据集。
去年,我读了本·布拉特(Ben Blatt)的著作《纳博科夫最喜好的词》,这本令人愉悦的书通过统计技能剖析了一些文学领域的伟大作家。第一章题为“简洁‘地’用词”,磋商了一个旧调重弹的写作建议:少用副词。斯蒂芬·金曾经把副词比作杂草,并警告说:“通往地狱的道路是由副词铺成的。”因此,布拉特统计了不同作者的作品中以“-ly”结尾的副词利用频率(firmly“武断地”,furiously“剧烈地”等),末了创造:
在1000个单词中以“-ly”结尾的副词涌现次数
作为英国最精彩的小说家之一,简·奥斯汀对副词的友好态度彷佛充分驳斥了这一不雅观点。但是布拉特指出了一个有趣的规律,在同一个作家的作品中,最伟大的小说每每利用的副词最少。
F.斯科特·菲茨杰拉德副词最少的小说是《了不起的盖茨比》;托妮·莫里森的是《宠儿》;查尔斯·狄更斯的是《双城记》,紧随其后的是《远大出路》。当然,也有例外——纳博科夫的《洛丽塔》可以说是他最受推崇的小说,而个中的副词频率达到顶峰。但趋势还是很明显的:低频利用副词让写作更清晰有力,而高频利用副词暗示了内容和节奏不足紧凑。
我想起了大学里的一天,我的室友尼尔什笑着对我说:“你知道我最喜好你什么吗?便是你非常爱用‘可想而知’(conceivably)这个词,这是你的口头禅之一。”
我愣住了,进行了反省。而从那一刻起,“可想而知”这个词从我的字典里消逝了。
尼尔什为这个词的消逝难过了好几个月,而我同时背叛了两个朋友——这个单词和我的室友。我实在无能为力。原来我脑海中那个将意义转化为笔墨的幽灵是靠本能在事情的,它在阴影中清闲地茁壮发展,而当我们把把稳力集中到一个特定词的选择上时,会使这个幽灵感到害怕,它便退缩了,再也不用这个词了。
看了布拉特的统计数据后,这种情形再次发生了。我得了副词企图症。从那往后,我写作的时候就像一个不安的亡命者,害怕那些以“-ly”结尾的副词会像蜘蛛爬进熟睡时的我嘴里那样溜进我的散文中。我认识到,这是一种生硬的、人为的措辞研究方法,更不用说个中稚子的“干系性即是因果关系”的统计方法了。但是我没办法。大略来说,这便是数字人文学科的希望和危险;而就我而言,重点在于“大略”。
文学作为词的凑集,是一个非常丰富的数据集。反之,如果仅仅作为一个词的凑集,文学就不再是文学。统计在运作时会打消高下文,它对洞察力的探索始于意义的消逝。作为一个统计爱好者,我被吸引了;而作为一个爱书的人,我却退缩了。丰富的文学语境和冰冷的统计剖析之间,能否有和平共处的办法?还是像我担心的那样,它们便是宿敌?
统计学家做的文化研究
2010年,以让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)和埃雷兹·利伯曼·艾登(Erez Lieberman Aiden)为首的14位科学家揭橥了一篇轰动环球的研究文章,文章题为《通过数百万本数字化书本对文化进行的定量剖析》(Quantitative Analysis of Culture Using Millions of digital Books)。每当我读到它的开场白时,我都情不自禁地感叹一声“我的天哪”。它的开头是:“我们构建了数字化文本的语料库,个中包含的书占天下上印刷图书总数的4%。”
我的天哪!
与所有统计学研究项目一样,这个研究须要大刀阔斧地简化。文章作者做的第一件事便是将全体数据集——500万本书,总计5000亿个单词——都分解成他们所谓的“1-gram”。他们阐明道:“一个1-gram便是一串中间没有空格的字符,包括单词('banana' 'SCUBA'),也包括数字('3.14159')和错别字('excesss')。”
句子,段落,论点——它们统统消逝了,只剩下一个个文本的碎片。
为了探测数据的深度,研究职员汇总了频率为十亿分之一以上的1-gram。从20世纪初期到中期再到末期,他们可以从语料库看出措辞的不断发展:
在研究了数据后创造,1900年的1-gram中只有不到一半是真正的单词(不属于数字、拼写缺点、缩写等),而2000年的1-gram中有超过三分之二是真正的单词。从统计的样本中,研究者估算出了每年英语单词的总数:
接着,他们在两本常用的词典中查找了这些1-gram,创造词典编纂者正在努力跟上措辞的发展步伐。尤其值得一提的是,这些词典没有收录大多数罕见的1-gram单词:
我在平时的阅读中,并没有碰着很多罕见的、词典中没有收录的词汇。那是由于……嗯……它们确实很罕见。然而,措辞中充斥着大量默默无闻的、涌现频率低于一亿分之一的单词。总的来说,作者估计“52%的英语词汇,也便是英文书中利用的大多数单词,都是由标准参考文献中没有记载的‘暗物质’词汇组成”。这些词典只触及了皮毛,漏掉了像“slenthem”(一种金属制作的乐器)这样的珍宝词汇。
对这些研究职员来说,在词汇中的探险还只是热身。接下来,作者们通过跟踪筛选的1-gram频率研究了语法的演化、作家成名的轨迹、审查制度的印记和历史记载的转变模式。所有这些只用了十几页就完成了。
这篇文章让我惊掉了下巴。《科学》杂志察觉了这一研究的主要意义,免费向非订阅客户开放这篇文章。《纽约时报》流传宣传:“这是一扇崭新的文化之窗。”
文学学者方向于研究独特的“经典”,只有少数精英作家能被深入、专注地剖析。比如托妮·莫里森和詹姆斯·乔伊斯,还有坐在乔伊斯的键盘上敲下了《芬尼根的守灵夜》(Finnegans Wake)的那只猫。但这篇论文指向的是另一种模式:一个包罗万象的“语料库”,在这个语料库中,无论是有名的还是无名的图书,都同样得到研究者的把稳。统计数据是推翻文学的寡头制、建立起民主政体的有力工具。
理论上,精读和正典与统计学和语料库,这两种模式并没有无法共存的情由。只管如此,像“精确丈量”这样的短语还是指出了一种冲突。文学的意义能“精确”吗?它们可以被描述为“可丈量的”吗?或者说,这些强大的新工具会带领我们离开难以量化的艺术深处,去探求我们的锤子能打到的钉子吗?
统计学能算出我的性别?
在我来看,散文该当是没有性别的。我的散文像雌雄同体的海绵;弗吉尼亚·伍尔芙的散文则像银河或神的启迪。但伍尔芙在《一间自己的房间》表达了相反的不雅观点,她认为早在1800年,盛行的文学风格就已经演化成男人思想的容器,容纳不了女人的思想。散文的节奏和形式本身就带有某些性别特色。
这个不雅观点在我脑海里萦绕了几个月,直到我在网上看到一个叫“魔幻酱汁(Apply Magic Sauce)的项目,它可以阅读你复制粘贴上去的文章节选,并通过神秘的剖析方法预测作者的性别。
这太故意思了,我必须试试。
在眼花缭乱的博客网站上,我花了一个小时复制粘贴了25篇博客文章,这些文章写于2013年至2015年。终极的结果是这样的:
分辨我博客的性别
由于“魔幻酱汁”团队对技能是保密的,我开始试图探究这个算法可能的运行模式。它是用图表绘出了我的文章片段吗?它嗅出了我情绪中潜在的男权主义吗?它是否像我想象中的弗吉尼亚·伍尔芙那样,渗透到我的思想中,把阅读图书上升为一种阅读灵魂的形式?
不,它很可能只是不雅观察单词的频率。
在2001年揭橥的一篇名为《按作者性别对笔墨自动进行分类》(Automatic Categorizing writing text by Author Gender)的论文中,三位研究职员仅通过打算几个大略单词的涌现次数,就成功地将男性和女性作家区分开来,准确率达到80%。后来的一篇题为《正式书面文本中的性别、文体和写作风格》(Gender, Genre, and Writing Style in Formal Written Texts)10的论文用普通易懂的措辞阐述了这些差异。一方面,男性更多地方向于利用名词限定词(“一个”“这”“一些”“大多”……);另一方面,女性更喜好利用代词(“我”“他自己”“我们的”“他们”……)。
非虚构类作品中的单词类型
事实上,乃至连“你”这个平平无奇的单词涌现的频率都能透露出作者的性别:
虚构类作品中“你”一词的利用
这个数据系统如此简洁,让人们更惊异于它的准确性。这种方法忽略了所有的高下文、所有的句意,只关注非常小的一部分单词的选择。正如布拉特所指出的那样,它会把“这句话是女人写的”这句话评价为更有可能是男人写的。
然而,如果你把视野扩大到所有的单词,而不仅仅是语法上的小连接词,那么结果就会转向刻板印象。一家名为CrowdFlower的数据公司研究出一种用于推断社交网络账户所有者性别的算法,它选出了以下性别预测词汇:
而在《纳博科夫最喜好的词》中,本·布拉特创造经典文学中最具有性别特色的词是:
“魔幻酱汁”看起来也依赖了这些线索。当数学家凯茜·奥尼尔利用“魔幻酱汁”的算法测试一名男性写的关于时尚的文章时,结果为99%女性特质。当她测试一名女性写的关于数学的文章时,结果是99%男性特质。而奥尼尔自己的三篇文章则分别得到了99%、94%和99%的男性特质评分。”这是个小范围的测试,”她写道,“但我打赌,这个模型代表了一种刻板印象,根据作者选择的主题来确定作者的性别。”
这些结果不准确的例子并没有平复我内心的恐怖。我的男性特质彷佛已经渗透到我的思维中,以至于一种算法可以用两种不重叠的办法将它检测出来:其一是我对代词的利用情形;其二是我对欧几里得的喜好。
我知道,这在某种程度上证明了伍尔芙是对的。她创造了男人和女人正经历着不同的天下,并相信女权的斗争必须从句子的层面开始。粗糙的统计数据也证明了这一点:女性写作的话题和办法与男性不同。
不过,我还是以为这统统都有点儿令人沮丧。如果说伍尔芙的写作揭示了她的女性特质,我更乐意认为这些女性特质嵌入了她的聪慧和诙谐之中,而不是通过她利用名词限定词的频率较低表现出来的。听伍尔芙分辨男性和女性的散文,觉得像是去看一位值得相信的年夜夫,而如果让算法做同样的事,就让人觉得像在机场被搜身一样。
统计数据和文学意义能否共存?
2011年,斯坦福大学文学实验室的学者考试测验了一个棘手的跃进试验:从识别文章作者到识别文章文体。他们利用了两种方法:词频剖析和一种更繁芜的句子层面的工具(称为Docuscope)。出人意料的是,这两种方法都能进行准确的文体判断。
我有些不安,算法比我知道的多太多了。
令我稍感宽慰的是,研究职员给出了一个试探性的结论:没有一个单一的元素可以区分一个作家或流派,也没有一个独占的特色可以让所有其他作家效仿。相反,写作中的特色包括很多方面,从小说的总体构造一贯延伸到分子般的音节构造。而统计数据和文学意义是可以在相同的单词序列中共存的。
大多数时候,我是为了建造一个自己的天下而阅读,书中有情节、主题、人物——这是一种高层次的构造,是任何路人都能看到,但统计数据却无法阐明的层面。
如果看得再近一些,我就可以看到这个建筑的一砖一瓦,包括句子、句子构造、段落的设计。这是我的高中英语老师教我不雅观察的微不雅观构造,打算机也能学会做同样的事。
而在这之下还隐蔽着砂浆,包括代词、介词、不定冠词。这些纳米级构造对我的眼睛来说太风雅了,但对付统计学家的化学剖析来说却是空想的研究工具。
虽然这只是一个比喻,但这个比喻是我大脑中冥冥响起的声音。我头脑一热,便打开这本书的第一部分(“如何像数学家一样思考”),对以“-ly”结尾的副词频率进行了统计,结果为每1000个单词中有10个,和弗吉尼亚·伍尔芙作品中以“-ly”结尾的副词频率差不多,这是一个好预兆。接下来,我忍不住删除了不必要的“-ly”副词,直到频率低落至每 1000个单词中8个以下,这是属于欧内斯特·海明威和托妮·莫里森的频率。我溘然创造,作弊的觉得很棒。
新的统计技能真的能与更古老、更丰富、更人性化的措辞理解办法和谐相处吗?是的,这是“可想而知”的。
原作者 | [美] 本·奥尔林
摘编 | 王一
编辑 | 申婵
导语校正 | 陈荻雁