数字人文的人文之维--理论评论--中国作家网

数字人文的人文之维

来源：中国社会科学报　|　曾军　　2020年08月31日08:57

数字人文是数字技术通过对人文研究领域的渗透和介入，带来的方法论革新。目前，数字人文的发展还处于初级阶段，主要表现在信息管理、图书情报档案、历史学领域对各种数字技术的引入，以及人文经典文献的信息化、数字化处理等方面。此外，数字技术也逐渐触及人文研究领域的某些领域，如主题、意义、情感、价值等。当前数字人文面临的主要问题是“技术化”和“文献化”比重偏移比较明显，很多研究还处于“学习技术”的阶段，只能做一些基础性工作，这与数字人文研究尚处于初级阶段密不可分。数字人文要真正成为重构人文研究的方法，则必须要在“人文化”方面有所推进和发展。

基于可视化文本展开意义阐释

一般情况下，数字人文都被理解为以数字技术为方法、研究人文领域的相关问题。“数字”是方法，“人文”是对象。这种理解固然没错，但并不全面。原因在于，它只是将“人文”作为研究的对象来看待，忽略了研究的主体性问题，而主体性是人文研究非常重要的一个方面。与自然科学、社会科学等相比，人文学科最大的不同不仅在于研究对象的差别，更在于研究方法上对研究主体性的强调。正因如此，我们才会更强调人文研究中的“个性”“特色”“差异”“历史的具体性”以及研究者“情感”“价值”“悟性”等因素在研究活动中的介入。数字人文研究作为人文研究与数字技术的跨学科结合，同时包含了两个维度的趋向：其一是“人文研究数字化”，即用数字技术解决人文问题；其二是“数字技术人文化”，即以人文方式发展数字技术，“让数字更人文”。

作为研究方法的数字人文有一个共同模式，就是将文化经典视为可编码的信息，将日常生活转换为可追溯的数据，将价值体系打上可识别的标签，进而通过词频软件、数据统计及相关可视化手段呈现出一个全新的数字化文本形态。数字人文研究者就是基于这一可视化的文本展开意义的阐释。我们可以聚焦这一研究方法及其过程，看看数字人文与传统的人文研究之间存在哪些交织、渗透、抵牾，进而如何做到“数字”与“人文”的有效缝合。

无论是文学阐释还是艺术分析，抑或是基于概念抽象的形而上思考，都建立在研究者对经典文献中的符号信息的直接把握和对日常生活世界的人类生活方式的切身体验基础之上。而数字人文方法将所需要分析的文献信息和行为活动进行数据化和可视化处理后，形成新的文本形态。因此，数字人文研究者的认知、理解和阐释活动并非直接“面对事实本身”，而是面对经过“二度加工/创造”形成的数据可视化文本形态。如果说那些作为“事实本身”的经典文献和行为活动相当于人文研究的“原初文本”的话，那么，经过数字人文方式处理过而形成的新的文本形态则是“次生文本”。对“原初文本”的研究，就是英美新批评所说的“细读”（close reading），对“次生文本”的研究则是数字人文倡导的“远读”（distant reading）。不过值得重视的是，所谓“远读”之“远”是相对于“原初文本”的距离来说的，因为毕竟与研究者之间“隔了一层”。但是研究者面对“次生文本”的研究仍然是“细读”式的，需要充分调用研究者对“原初文本”的认知、对相关理论观念的理解以及对个人感性经验的体悟等。

因为数字人文方法的介入，人文研究的层次变得更加丰富了。在传统人文研究中，研究者主要面对的是两个层次的问题：一个是“原初文本”（即经典文献和行为活动），相当于索绪尔所说的“言语”层；另一个则是“元文本”，即柏拉图所说的“理式”、原型批评中所说的“母题”、利奥塔所说的“宏大叙事”，相当于作为规则的“语言”层。而数字人文研究增加了人文研究的“次生文本”层次。这一“次生文本”是寄生于“原初文本”的，但又对“原初文本”进行了数据化处理。这一过程本身就已包含了研究者的问题意识、理论预设和价值判断。或者可以比附为“话语”层。因此，当“次生文本”出现之后，此前传统人文研究所面对的“元文本”与“原初文本”之间的二元关系，就演变成新增了“次生文本”的三角关系：“次生文本”既可能是对“原初文本”的抽象化还原，也有可能包含着对“原初文本”的颠覆性解构，既有可能突显“元文本”与“原初文本”之间的隐性关联，也有可能提示两者之间的矛盾和张力。从这个意义上说，将数字人文方法引入人文研究，将会极大地丰富和扩展人文研究的层次和内涵，成为人文研究的延伸和补充。

不过，经过数据可视化形成的“次生文本”还只是对海量的人文信息的存储、检索、统计等辅助性功能的完善，还不足以作为一种独立的研究方式完成人文研究的全过程。“人文研究数字化”还需要经过有效性验证和默会、理解与阐释，才能实现新的人文知识生产。而这一过程就是“数字技术人文化”。

通过对比参照进行交叉分析

数字人文正在致力于不断丰富、发展和完善能够应用于人文研究的数字技术、工具，试图建构成可重复、可推广的体系和方法。这一套方法的有效性实现应同时获得两方面的验证：其一是技术路线的可行性；其二是人文分析的有效性。前者主要由计算科学、统计学等技术手段来实现，后者则需要传统人文研究方法的参与和评价。比如说在数字人文工具的完善过程中，标注、分词、数据的清洗、权重的设定等，都需要研究者以人工的方式“教会”相关程序进行更为有效和精准的识别。因此就有了数字人文研究中“有多少智能，就有多少人工”的调侃。

工具完善中的人工性正是传统人文研究的知识、技能、感性经验、价值观念注入、融入数字人文方法的过程，也是数字人文提高其统计精准性的重要方法。再比如数字人文研究中的情感分析一般会采取二元分类（积极情感/消极情感）和多元分类（如细分为“快乐”“悲伤”“愤怒”“痛苦”等）相结合的方法，建立可调用的情感词典。在这一过程中，需要研究者对各类情感词语及其在特定语境中的情感指向进行区分，完成所谓的“降噪”过程。这种方法在分析日常生活和行为中的情感粒度时已经初具有效性了。在购物网站中用户对产品的评价、观众对正在上映的电影的评价以及网络舆情的总体判断等方面，研究者已经能够完成相关的受众/用户分析了。不过，如何将这一情感分析引入文学、艺术作品的内部研究还是一个有待完善的课题。

一般情况下，虚构性叙事作品大多包含有叙述层次、话语类型、文类风格、修辞策略等要素，这些要素既有别于日常语言文本，也会极大影响情感价值的趋向和情感内涵的意指。在有效性验证方面，数字人文还面临着一个与个人感性经验相匹配的悖论性问题：如果数字人文方法对海量文本的分析能够与个人感性经验相匹配，那么，这一方面会证明数字人文方法的有效性，但另一方面又会降低数字人文方法的有用性——如果与感性经验相符，那么，运用数字人文方法岂非多此一举？反之，如果与人的感性经验不相符，那么，它的有效性又该如何验证？

因此，数字人文研究在知识生产方面要解决的问题，比传统的人文研究要复杂得多。一方面，它需要研究者拥有传统人文研究的文献处理、文本分析和意义阐释的能力。即使要处理的是个人头脑无法把握的海量文献、信息，也需要研究者拥有“说文（文本）解字（文字、图像等符号）”的能力，能够以抽样的方式完成对相关信息的阅读和观看，进而获得对研究对象的感性经验和个人判断。虽然这些经验极其有限、非常片面，但仍然是必不可少的。另一方面，它还需要研究者拥有“看图（可视化图形）识字（数字、数据等信息）”的能力，能够从“次生文本”的各种图式、图形、符号、数字等信息中，形成对原始文本的意义挖掘和价值判断。进而，将两种研究方法做出的分析进行对比、参照，展开“元文本”“原始文本”和“次生文本”之间多重交叉性质的反思性分析。

当然，以上的所有分析都建立在数字人文研究目前处于初级阶段基础上。它的根本特点是，在“人—机”关系中，“人”的因素还处于支配性地位。随着人工智能技术的发展，数字人文方法也会不断地升级换代，“人—机”关系也会出现“人”的因素支配性作用不断下降，甚至出现“机”对“人”的控制和替代的可能。这也使得人文学者对数字人文方法常常抱有一种本能的敌意，认为这一研究隔绝了研究者面对“原初文本”的感性经验，将人文研究认知、理解、阐释和判断的权力让渡给了计算机软件程序。究其原因其实是人文学者（也包括计算机科学和其他社会科学的学者）对数字人文方法的双重误判：第一重误判是针对数字人文方法目前只能应用于人文研究初级阶段的蔑视，另一重误判则是受当前各种科幻大片渲染的超级人工智能技术带来的“后人类”“超人类”甚至“反人类”的技术恐慌。其实，我们既不能因为数字人文方法之于人文研究尚处襁褓时期而轻视它的价值，也不能过分夸大数字技术的分析能力转而心生恐惧。我们对待数字人文的最好态度，既不是拥抱，也不是逃离，而是真诚的握手。

为人文社科研究插上数字羽翼[2021-12-04]
数字人文