历史与AI的距离|当AI“读懂”我的西夏文研究

发布时间:2025-06-10 10:01:57

本文作者:小古

人工智能的浪潮正以前所未有的速度和深度影响着我们生活的方方面面,从日常的聊天助手到复杂的科学计算,它的身影无处不在。当人工智能(AI)不仅能写诗作画、谱曲编程,甚至开始涉足解读艰深晦涩的史学文献时,一个饶有趣味的问题也随之浮现:历史学与AI的关系究竟将走向何方?仅仅是高效的工具,还是可能成为激发深度思考的伙伴?历史学这门古老而智慧的学科,又将迎来怎样的挑战与机遇?这便是本文想要与读者共同探讨的故事。它可能不仅是一段个人经历的分享,更是对一个正在到来的智能时代中,我们如何与AI共舞、重塑知识生产方式的思考。

一、 AI撮合的一场意外重逢

近日,一段由AI生成的对谈音频,让我这个一直在计算机科学的理性与历史人文的感性之间穿梭的数字人文从业者,体验到了一种前所未有的“共振”。故事的开端颇为偶然:一位友人尝试将我数年前发表的一篇关于西夏文字典《文海》网络分析的论文,“喂给”了谷歌的AI工具NotebookLM。当友人将AI生成的英文对谈音频转给我时,我最初的期待或许仅仅是AI能对论文进行一次常规的摘要或信息提取。然而,结果却远超预期:两个“虚拟人”的对话,其兴奋的语气极富感染力,他们不但精准地解读了我研究的核心,而且阐释流畅自然、视角独到,甚至有些思路让我感到它似乎比我考虑的还要深远。那一刻,我感觉AI不再仅仅是一个冰冷、执行指令的工具,它仿佛拥有了某种“理解力”,成为了一个能够跨越语言障碍、与我进行深度学术对话的“思考伙伴”。

这场由AI“撮合”的、与自己旧作在新视角下的“意外重逢”,不仅带来了惊喜,更引发了我对AI在历史研究中潜能的深层思考:AI究竟在以何种方式介入历史研究?它又将如何重塑我们与历史的“距离”,乃至历史学者自身?这不仅仅关乎技术的进步,更关乎我们如何认知过去、理解现在、并塑造未来。

二、从抽象数据到历史叙事

我的专业是计算机科学与技术,但一直在陕西师范大学历史文化学院工作,这样的交叉背景让我自然而然地将技术融入历史专业研究中,近年更专注于数字人文,特别是智能技术在历史研究中的深度应用。2022年发表于《数字人文》期刊的《西夏文字典〈文海〉的网络分析》一文,便是我在这方面的一次尝试。

西夏文,这个由党项人在近千年前创立的独特文字,如同历史长河中一颗颗沉寂的星辰,记录着一个王朝的兴衰与文明的印记。而《文海》是西夏人自己编纂的“解字书”,一定蕴含着深度解读西夏文明的钥匙。然而,西夏文早已成为一种“死文字”,其字形构造之复杂、文献数量之庞大、字间解释关系之繁复,使得现代学者的西夏文学习与研究之路充满挑战。

目前AI技术对西夏文的自动识别率已经很高,在不考虑语境的情况下将单个西夏文字转成对应汉字的问题也不大,但是要直接将西夏文文本准确地翻译为中文,或是释读西夏文草书,又或者是大规模地分析西夏文资料库,仍然存在困难。

图片来源:互联网

西夏文OCR系统:将西夏文献图片转录为可检索文本。

我运用网络分析方法,将《文海》中每一个西夏字视为一个节点,字与字之间的解释关系视为连接节点的边,从而将整部字典转化为一个庞大而复杂的“西夏字解释关系网络”。这样做的目的是希望通过结构化的数据分析,在揭示《文海》内部潜藏的西夏字的组织规律和西夏人的某些核心观念与认知结构方面进行一些探索。

图片来源:互联网

西夏文字典《文海》以及构建字典网络的说明。图片出自《西夏文字典〈文海〉的网络分析》一文。

图片来源:互联网

《文海》字型解释举例

这项研究的一个核心贡献,是提出了一种识别《文海》中“基本字集”的方法。在AI生成的中文版对谈节目中,这个过程被生动地比喻为“洗面筋”。说来有趣,这个比喻与我之前在课堂上向学生解释类似概念时所用的表述不谋而合,这或许与友人最初与AI互动时,在Prompt中巧妙地融入了相关引导有关。这恰恰是我第一次听到AI用此比喻时感到尤为震撼的原因——它像是一次回响,一次人类思考与AI能力在特定引导下的精妙共振。想象一下,整部《文海》中的字根据解释互相关联、交织,形成一个像面团一样的网络,而我们的算法,就像一双不知疲倦的手,将“面团”在水中反复搓洗:那些仅仅被其他字解释,而自身不去解释任何其他字(或者说,在解释网络中只有入度、没有出度)的“末端”字,被一层层“洗”去。经过多轮迭代,最终沉淀下来的,便是那些最精华、最基础、无法再被简化、构成整个字典语义基石的核心部分即基本字集——如同黏性十足的“面筋”,是该语言的“基本构件”。

找到了“面筋”,下一步便是理解其他字是如何围绕这个核心构建起来的。研究通过计算每个非核心字到达基本字集的“定义距离”,揭示了《文海》内部西夏字之间解释关系清晰的层级结构。中文对谈中将这个过程被比作“剥洋葱”:最核心的基本字集如同“洋葱心”(第0层),仅由该层直接解释的字构成“洋葱”的第一层,只依赖前两层解释的字构成第二层……如此层层向外扩展。英文对谈则给出了另一种比喻——“树”:核心字集是“树干”,其他字则是从树干上生发出的“分枝”,越往外延伸,字的意义可能越复杂,其构成也依赖于更靠近树干的字词。

图片来源:互联网

《文海》字典网络层次结构可视化

AI解读还提出了“复原洋葱”的视角(或顺着“树”的脉络向上追溯):这种从内向外的层级结构,是否暗示了一条潜在的、高效学习西夏字的路径?即“从核心往外学”,先掌握最基础的核心字,再逐步理解其衍生字词。这或许能让学习这门古老文字的过程,不再那么“遥不可及”,如同进行一场有趣的“语言寻宝游戏”。这些由AI生成的比喻和引申,即使部分可能源于巧妙的提示,其最终呈现的精准和形象,着实令人感到惊艳,也让我意识到,即使是对自己的研究,AI也能提供富有启发性的“再解读”。这种‘再解读’的力量,不仅仅在于其修辞的巧妙(如英文对谈中将《文海》四字释义模式通过“靴”字的例子比作“视觉拼图”),更在于它有时能像一面不带偏见的镜子,映照出我们习以为常的研究路径中可能存在的盲点,提示我们从全新的角度审视习以为常的结论。

这种将抽象数据结构转化为可理解的知识模型的方法,其潜力远不止于《文海》这一孤例。在另一个对OPTED(Oxford Plain Text English Dictionary)进行的网络分析实验中,我们进一步见证了AI在连接抽象数据与具体意义方面的卓越能力。

与《文海》研究类似,我们通过词与词之间的相互训释关系构建网络,同样也发现了一些由词语构成的“强连接部件”(Strongly Connected Components,英文对谈中将其形象地解释为“网络中的圈子”,并以“男子与小孩”相关的字群为例,强调其揭示了“更深层次的概念联系”)。例如,实验中找到了一个包含“popovtsy, dukhobors, dukhobortsy, judaizers, bezpopovtsy, molokane, skoptsy, raskolnik, molokany, raskolniki”等一系列与俄罗斯东正教不同教派相关的生僻词汇的部件。这些词汇在词典的网络结构中紧密相连,这本身就暗示了它们之间存在某种超越简单词义的深层结构性关联,很可能反映了现实世界中特定文化领域的知识图谱或概念簇。然而,这对不具备相关宗教史背景的人来说,这些孤立的词汇簇如同一串密码,其背后的历史文化意涵难以破译。

此时,历史学者的专业洞察与AI的叙事能力再次展现了“共生”的魅力。我们引导AI,以这些“密码词”为核心,讲述一个故事。令人惊喜的是,AI不仅成功编织了一个连贯的叙事,更重要的是,它为这些通过技术方法提取出的抽象关联,赋予了生动的历史学解释,清晰地勾勒出17世纪以来俄罗斯官方东正教与各类异见教派复杂互动的图景。这个过程,与其说是简单的语言学习辅助,不如说是一次由历史学者主导(提出问题、提供材料、判断方向)、AI赋能(快速整合信息、生成文本)的小型“历史知识重构”。AI在这里扮演了一个关键的桥梁角色,它将冰冷的、结构化的数据(词汇网络),有效地转化为了有温度、有逻辑的历史叙事。这种“点石成金”的应用很好地体现了AI在辅助人文研究者从数据中挖掘意义、构建解释方面的巨大潜力。更深一层看,这个案例也揭示了网络分析方法本身可以成为历史研究的有力工具,其分析结果(如强连接部件)能够反映特定历史时期的文化、宗教、社会等方面的特征,而AI的介入则极大地加速和深化了对这些技术发现的历史学解读。

三、AI“对谈”何以催化深度思考

目前,用大模型做学术总结、文献综述已不鲜见,但多是分析他人的研究。这次,经由友人的尝试,让AI来解读和“反刍”我自己的研究工作,体验却格外不同。这种由AI驱动的、对自己研究的再审视,有时确实能带来“惊艳”的发现,让人感觉AI不再仅仅是一个工具,更像一个能提供新视角的“思考伙伴”。

这种将长篇语料(如一篇完整的学术论文)交由大模型生成具有一定深度的“对谈形式”的内容,比常见的人与AI直接进行即时问答的方式,似乎更富有思辨的特点。我初步思考,可能有以下几个方面的原因:首先是结构化的深度加工。当AI面对的是一篇完整的、逻辑严谨的学术论文时,它可以进行更为系统和深度的信息处理。为了生成一场有意义的“对谈”,AI不仅要理解论文的核心观点、论证过程,还要模拟不同对话者的角色、语气,甚至设计提问与回答的逻辑流程。这个过程,远比处理碎片化的即时提问要复杂,也更能驱动AI调用其深层次的文本理解和知识重构能力。其次是多视角的思辨模拟。对谈形式天然地蕴含了不同视角的碰撞。即使这些“对话者”是虚拟的,AI在设计其发言时,也需要考虑到观点的多样性和论证的层次性。这使得最终生成的对谈内容,更容易呈现出一种思辨的色彩,能够从不同侧面揭示研究的价值与局限,而非仅仅单向的信息输出。再者是知识的“反刍”与“再创造”。AI在准备对谈内容时,实际上是在对原始研究进行一次深度的“反刍”。它需要消化、吸收、理解,然后用一种新的形式(对话)来重新组织和表达。这个过程本身,就是一种知识的再加工乃至“再创造”。正如友人转给我的那份英文对谈,其流畅的逻辑和精准的用词,表明AI在“理解”我的论文后,已经能够用另一种语言体系进行高质量的知识迁移和表达。

因此,论文作者将自己的研究成果交给AI进行解读和“对话”,将来或许会成为一种极有意义的学术反思途径。因为作者本人最了解自己研究的初衷、过程与细节,而一个强大的AI大模型,则像一个知识渊博、逻辑严密、不知疲倦的“贤者”或“内心镜像”,作者与它就自己的研究展开“对话”,既能随时随地进行,又能保证讨论的深度和专注度。在这个过程中,几乎没有因交流对象知识背景不同而产生的信息损耗或理解偏差,或更容易激发作者本人对研究的深层审视和新的灵感火花。

四、AI“思考伙伴”与历史学者的时代新坐标

回顾我与AI围绕《文海》论文的那次“奇遇”,最令我触动的,并非AI的“博学”或“高效”,而是它所展现出的成为一个“思考伙伴”的潜力。“思考伙伴”,意味着AI不再仅仅是一个被动接收指令、输出结果的工具,而是能够在与人类智慧的有效互动中,以某种方式参与到我们的思考过程中,提供启发、反馈,甚至以其独特的“视角”挑战我们的既有认知。在解读《文海》网络分析的研究时,AI所用的“洗面筋”、“剥洋葱”的比喻,以及“复原洋葱”的学习路径猜想,便是有力的例证。正如前文提及,“洗面筋”这一精妙比喻的出现,很可能与友人最初在Prompt中融入了相关的引导性表述有关,这本身就生动地诠释了AI的洞察力并非凭空而来,而是人类智慧与AI能力在特定引导下共同催生的结果。更令人兴奋的是英文对谈中提及的萨丕尔-沃尔夫假说,一种语言的结构(例如《文海》所展现的独特的层级结构和核心概念组织方式)是否会反过来塑造使用该语言群体的思维模式和世界感知方式?对《文海》这类独特语言系统的深入分析,或许能为这一经典命题提供新的实证材料。而理解人类组织语言的复杂方式,无疑也能为开发更智能、更具理解力的人工智能系统提供宝贵的启示,甚至引发我们对知识本质及其相互关联方式的深刻追问,这些都远远超越了语言学或历史学本身的范畴,当然肯定也超出了我的论文讨论的范围。

这种“双向互动”的模式,可能会对未来的历史研究带来诸多深刻的变革。它可以加速知识发现与整合,帮助研究者在浩如烟海的文献资料中快速定位信息、识别模式、建立关联。它能够帮助学者跳出思维定势,AI基于大规模数据训练形成的“视角”,有时能帮助我们发现那些被忽略的联系或提出意想不到的问题。它还能促进跨学科对话与融合,AI可以作为不同学科知识之间的“桥梁”,帮助历史学者理解和运用其他学科的理论与方法,而这座桥梁的搭建方向、承载内容的选择以及最终意义的赋予,始终掌握在历史学者的手中。

AI真正成为“思考伙伴”,绝对无法一蹴而就,而是一个历史学者与AI技术共同进化、“互相导航”的过程。学者自身深厚的专业素养、清晰的问题意识和开放的探索心态是驱动这一过程的引擎。我们学会如何与AI“对话”,如何设计出能够激发AI深度潜能的Prompt,如何提出直击本质的问题,如何辩证地理解AI的“思考方式”,以及如何将AI的洞察与人类的智慧有机结合——这些探索本身,就在不断地为AI的能力边界和应用场景“校准”方向。反过来,AI的每一次能力跃升,也都在为历史学者开辟新的研究疆域,促使其不断调整和确立自身的“时代新坐标”。这种动态的“共生坐标”的确立,可能正是AI时代学术研究最富魅力和最具潜力的图景。

五、“历史与AI的距离”正在改变

从《文海》的网络分析,到AI对这项分析的跨语言解读与“反刍”,再到OPTED词典中AI的叙事能力,我们看到了一条清晰的轨迹:数字技术与人文研究的融合,正在从最初的数据化、可视化,走向更深层次的智能化、交互化。

AI的介入,无疑正在改变“历史与AI的距离”。它们之间的路径不再是单向的、静态的,而是充满了动态的交互与无限的可能性。AI既带来了如何确保研究严谨性、避免技术滥用等挑战,更带来了前所未有的机遇,让我们能以一种全新的方式去亲近历史、理解过去、并从中汲取面向未来的智慧。这不仅仅是关于一个古老字典或一种死文字的研究,它更关乎人类的好奇心、理解过去的渴望,以及这些探索如何与我们当下的语言学习、教育革新乃至技术发展产生惊人的关联。

正如我在复旦大学的报告《AI赋能史学研究新视野—从跨语言文献解析到深度历史探究》中所期待的,AI的真正价值,不在于替代学者的思考,而在于增强学者的思考;不在于给出唯一的标准答案,而在于激发更多元的历史想象。未来,历史学家与AI或许会像一对默契的舞伴,在海量的历史数据与深邃的人类智慧之间,共同探索历史研究的崭新疆域。而每一次像“AI读懂我的西夏文研究”这样的“小确幸”,都让我们对这个充满无限可能的未来,多了一份期待与信心。

[作者张光伟系陕西师范大学历史文化学院讲师,担任陕西师范大学丝绸之路历史文化虚拟仿真实验教学中心副主任,主要从事"人工智能+历史学"交叉学科研究:(1)基于深度学习的中国古文字识别与智能古籍数字化,历史地舆信息的多维度提取与可视化重构;(2)大模型与历史研究的深度融合;(3)虚拟仿真实验技术在历史研究与教学中的应用,国家一流本科虚拟仿真实验课程“敦煌石窟历史实践教学虚拟仿真实验”技术负责人。]

本文转载自互联网,如有侵权,联系删除。

相关文章