二维地图:一键检索唐代诗人一生行迹与作品
历代以来,学者们对唐诗的批评和研究,无论是诗话、评点,还是选本、诗坛点将录等传统形式,大部分是感悟、直觉和印象式的,缺少整体上的理论思辨。而时至今日,我们可以通过定量分析和大数据的方法,为唐诗研究带来哪些改变呢?王兆鹏指出,唐诗研究领域至少需要作家、作品、读者三个方面的数据。从作家角度来看,我们所需要的信息,有时间层面的生卒年、享年、进士及第年、进士年岁、创作起始年、创作终止年等;空间层面的出生地(籍贯)、定居地、去世地、活动地、贬谪地等;以及身份层面的帝王、宰相、将军、帅臣、幕僚、官员、隐士、布衣、僧道、歌妓等等,都应该进入研究的视野。
近年来,王兆鹏及其学术研究团队从《全唐诗》《全唐文》的作家小传、《中国文学家大辞典·唐代卷》、年谱及生平考证类论著中持续挖掘相关数据,先后制作成《唐代诗人信息统计表》《唐代文学编年地图平台》等多个数据库(表)。他们在不断摸索中改进,试图寻找出海量数据背后文学衍生发展的规律。
在今年3月24日上线的"唐宋文学编年系地信息平台"中,王兆鹏所提出的"量化分析唐诗及诗人"的研究设想得到了较为充分的展现。经过历时五年的数据挖掘后,这个平台现在可以呈现出151位唐宋诗人一生的行迹路线图,北至蒙古乌兰巴托,南至越南清化,点击路线图中的任一地点,系统即会详细显示出某位诗人在此地创作的诗歌作品。此外,搜索者也可以以地点或年份为关键词进行检索。例如,我们若输入年份"公元701年"(则天顺圣皇后长安元年),就能得出这一年诗人们的履历:李白出生于西域碎叶城(今吉尔吉斯斯坦托克马克市),王维出生于晋中,12岁的孟浩然在襄阳居乡读书,45岁的宋之问则从郑州来到洛阳又到西安,写下多首诗作。
王兆鹏指出,用传统的方式编纂的诗人年谱或者作家全集,往往是从单一的时间或者空间层面展示作家的创作情况和生平经历。而与之相比,"唐宋文学编年系地信息平台"最大的特点就在于"打通了时空维度",用形象化、可视化的方式展现出多位诗人的生平行迹和创作情况,使文学地图进一步走向立体化。
宏观视野:把评价诗歌的尺子拉长,再拉长
王兆鹏在"唐诗量化研究"领域的探索除制作文学地图以外,还包括多种数据分析尝试,不断提出了新的问题,诸如:
问:20世纪的李白研究中,研究者最关注李白的哪一篇诗文?
答:《蜀道难》,共有107篇论文专门讨论这首诗。
问:20世纪李白研究的学者群体中,谁的论文最多?
答:排名第一的是南京师范大学郁贤皓先生,共66篇。此外河南社科院的葛景春、日本松浦友久等学者的成果也较多。
正是通过对一个个看似碎片化问题的回答,王兆鹏摸索出了自己的"唐诗数据挖掘"方式--把评价诗歌的时间尺度拉长、再拉长,力求从宏观视野来观照唐宋诗歌的整体状貌。一方面,他相信,统计数据可以将文学空间的分布与位移集约式地呈现出来。例如,以唐宋诗人的籍贯数据为基础进行统计,王兆鹏发现,"唐代有时代、籍贯可考的诗人共1686人,其中北方诗人为949人,占56.3%,北方略占优势","而宋代有时代和籍贯可考的诗人为5694人,其中南方为4908人,占86.2%,南方占绝对优势"。如果从省份数据进一步分析,他指出,"唐代,占籍诗人最多的三个省份是河南、陕西与河北","宋代诗人最多的省份是浙江,有1437人,占宋代有籍贯可考诗人总数的25.2%"。值得注意的是,通过这些数据我们可以发现,唐宋诗歌版图南移的时间和社会经济文化重心南移的时间并不完全一致,这个现象可以纠正我们某些固有的"标签化"观点。一般认为,北宋王朝的毁灭代表了中国经济文化重心南移的真正分野,而王兆鹏通过大数据的证明认为,中国诗坛重心的南移,始于晚唐五代,完成于北宋。
另一方面,我们还可以通过对历代的唐诗选本、评点资料和研究论文的计量分析来排定唐诗宋词的影响力榜单。在讲座现场,王兆鹏展示了自己从2005年开始尝试和2011年初步排定的《唐诗排行榜》。这份榜单主要以70余种唐诗选本、历代评点唐诗、20世纪唐诗研究论文和相关文学史著作等方面的数据为基础,通过极复杂而周密的方法,排列一百首影响力最大的唐诗作品。颠覆大众对唐诗印象的是,通过统计得出,历代以来影响力最大的唐诗是崔颢的《黄鹤楼》(昔人已乘黄鹤去),其次是王之涣《凉州词》(黄河远上白云间)、杜甫《登高》、王之涣《登鹳雀楼》和张继《枫桥夜泊》等,而可能更为大众所熟知的陈子昂《登幽州台歌》等诗作则名落孙山。
大家可能会疑惑,王之涣存世作品不多,为什么会有两首诗都排在榜单前列?王兆鹏认为,这很有可能与诗歌的传播力需要一个精彩的故事有关。著名的"旗亭画壁"的故事为王之涣《凉州词》增色不少。据说,在开元年间,王昌龄、高适和王之涣三位诗人去旗亭(即酒楼)小饮,忽有几位歌妓演唱当时知名诗人的作品。几首过后,在座诗人王昌龄和高适的作品都被唱过,唯独王之涣的没有,然而他淡定地说:"刚才唱的都是下里巴人的俗曲,我们来听听那位最美的歌妓唱谁的诗。"果然,那位头牌歌妓开口唱的就是王之涣的那首"黄河远上白云间……"。足见《凉州词》在当时受普通民众欢迎的程度。
尽管众多的文史爱好者欣喜于数字化及可视化研究可能给传统人文学科带来的积极影响,然而,学术界对"唐诗大数据"研究方式仍存有不少疑虑。
部分人文学者认为,类似的"唐诗影响力排行榜"固然可能有益于在当今社会传播经典,但进行唐诗排名的根据存在逻辑问题。不同于传统的"点将录"批评方式,近代的排行榜更多基于对相关数据的可靠收集和精准分析。若以历代唐诗选本入选唐诗、历代唐诗评点、唐诗研究论文、文学史中提及唐诗的数据为基础进行排行,难免会招致一系列质疑:历代选本选唐诗的标准并不一致,这份排行榜具体能代表哪个时期的诗歌审美趣味?研究论文选题、文学史诗歌批评受时代和资料条件影响较大,能不能有效反映诗歌的社会评价?如果考虑到中国港台地区和东邻日本的人文环境和诗歌传播情况,唐诗排行榜的说服力是否还需进一步思考?类似的问题从《唐诗排行榜》推出之日起,就不断萦绕在关注者的话题之中。究竟唐诗需不需要排名?应该以何种标准排名?显然是现今学术界还不能完全达成一致的问题。
与此同时,关注"唐诗系年系地地图"领域的数据分析爱好者也很不满足。"唐宋文学编年系地信息平台"已经取得一定的成果,但若与技术工具的发展相对比,又难免令人兴起望洋之叹。目前,"唐宋文学编年系地信息平台"的信息展示方式仅有点状散点图一种,但现今大众常用的数据地图至少包括气泡图、面积图、点状图和热力图四种,每一种又各有丰富的操作工具和呈现方式。如果考虑到与词云、指标卡、计量图、瀑布图、桑基图、旭日图和雷达图等多种信息图(Infographic)的综合使用,那么未来的文学地图数据可视化(Data Visualization)之路,应该会走向形式更加丰富的交互式可视化方向。
此外,更加重要的是,大数据分析方式的核心基石是海量异构数据(massive heterogeneous data),目前"信息平台"仅仅有不到两百位唐代诗人的行踪和诗歌数据,预计到年底诗人的数量可以增至500余位,然而这与唐代诗人的总量相比仍然略显单薄。因此,快速增加大量相关诗人的数据就成为"信息平台"发展和维护的当务之急。据王兆鹏介绍,项目组下一步可能会与哈佛大学费正清研究中心《中国历代人物传记资料数据库》项目组合作,共享数据资源。
《经济学人》杂志的数字编辑肯尼思·库克耶(Kenneth Cukier)在其著名的TED演讲"大数据好处多"(Big Data is Better Data)中曾提出:"现在,更多的数据不仅仅让我们在同一件事情上了解更多,它可以我们有新的发现,能更好地了解,并让我们从不同视角去理解事物。"在海量数据和数据可视化的基础上,传统人文研究能否走出一条兼具信度效度与吸引力的创新研究之路,将是人文研究者和数据分析师未来需要共同回答的命题。
(编辑:映雪)