大数据观世|第2期:300年来中国哪个城市知名度高?

2020-04-10
admin


编者按


城市是文化在地理空间上的重要载体,一座城市在全球范围内的知名度是城市综合影响力的重要组成部分。一个国家的城市群体影响力是衡量国家非权力性影响力的重要指标。然而,受困于数据和测量的局限,学界迄今尚未对该领域进行系统性的分析。大部分针对当代城市知名度分析的途径是通过海外抽样问卷,这一研究方法需要较大的成本,且面临样本选择的诸多问题。若我们希望观察几个世纪以来城市知名度的变迁轨迹,传统的抽样数据分析模式就显得无所适从。书籍提及率作为城市知名度的标杆,能从长时间的历史维度来展现城市国际知名度获得过程的模式和特征。一个可能的思路是针对全球外文书籍内的中国城市形象进行分析研究,实现在历史维度上看城市知名度变化的轨迹,陈云松等学者所著《近三百年中国城市的国际知名度——基于大数据的描述与回归》一文即从该角度出发。



近三百年中国城市的国际知名度——基于大数据的描述与回归

文 | 陈云松 吴青熹 张 翼

本文刊于《社会》2015年第5期,内容以正刊为准,未经说明,文中图片均来自网络


一、研究简介

城市是人类文明在地理空间上的汇聚点,具有文化的贮存、传播、交流、创造和发展等基本功能。在城市的诸多内涵要素中,城市文化是城市的灵魂。作为文化在地理空间上的重要载体,一座城市在全球范围内的知名度是城市综合影响力的重要组成部分。一个国家的城市群体的影响力,是衡量国家的非权力性影响力,也即软实力的重要指标。因此,对城市文化影响力尤其是国际知名度的研究,具有重要的经济、社会和政治内涵。


“大数据”尤其是数字化书籍大数据的适时出现,为开展相关的社会科学研究提供了空前的机遇。目前,谷歌图书语料库能提供公元1500年以来7种语言800多万种数字化书籍的全文词频检索。通过观测和分析关键词在语料库中使用频率的变化,我们可以发现相关的关键词在人类文化发展史中或鲜为人知或饶有趣味的趋势和现象。


本文利用谷歌图书的百万书籍大数据,以中国地级以上(含)城市近300年来英语书籍中出现的词频来展示和分析城市国际知名度的变迁及其特征。研究发现,北京、香港、上海、广州、南京、澳门、天津、台北、重庆和拉萨依次为近300年国际知名度的前十强。研究表明,近代中国大陆城市在国际媒体中的提及率显著影响其国际知名度,而港澳台城市的国际知名度和媒体提及率之间则不存在这种关联。这意味着近代以来大陆城市的国际传播主要通过媒体报道进入西方社会。


二、数据与策略

本文使用谷歌图书语料库作为中国城市国际知名度的测量来源数据库。谷歌图书语料库源于谷歌公司自2004年底启动的对哈佛、牛津等40多所顶级大学图书馆藏书及出版社赠书的数字化工程。2008年,让-巴蒂斯特·米歇尔等人从已被数字化的1500多万种书籍中选择了其中500多万种识别质量较高的非期刊书籍,作为其文化定量分析的语料库。这500多万种书籍时间跨度从公元1500年到2000年,含7种语言,占古登堡印刷术发明以来人类印刷出版图书总数的4%,词汇量达5380亿。到2013年,超过3000多万种书籍已被扫描和识别,可供分析的最新版语料库书籍高达800多万种,词汇量更高达8613亿。考虑到公元1500年至1700年语料库中的书籍较为稀少,甚至有年度空缺,我们把对谷歌图书语料库的分析历史的上限设定为公元1700年。考虑到2000年之后的书籍仍然在数字化过程中,为减少样本偏误,我们把分析历史下限设定为公元2000年。

选取《纽约时报》自1851年创刊至今150多年的数字化语料库作为提取中国城市媒体提及率指标的来源。《纽约时报》是美国社会代表性的主流媒体,每天在纽约出版、全世界发行,在全球范围内具有一定的影响力。

用于检索的“关键词”设定对于本研究也很重要。在关键词的设定过程中,我们注意到,绝大多数城市的英语名称近300年来发生了巨大变化。因此,对本文所涉全部城市,我们均仔细考证了全部可能的英文名称,然后对检索结果进行加总,以获得最为精确的城市检索数据。


三、 近三百年中国城市的国际知名度

本文首先对294个城市近300年、200年、150年、100年、50年和20年的国际知名度指标进行分段分析(均截至2000年),计算出平均知名度来进行排名。从表格中可以看出,近300年、200年、150年、100年、50年(1949年之后)和20年(改革开放后)等六个不同历史跨度的国际知名度前20强均集中在25座城市。这表明,城市国际知名度本身是较为稳定和集中的指标,尽管300年来经历了清、中华民国和新中国三个政权,但知名城市的构成并无太大变化。

按照不同历史跨度的平均排名,北京、香港、上海、广州、南京、澳门、天津、台北、重庆和拉萨稳居近代以来中国城市国际知名度的前10名。考虑到图形识别度和篇幅限制,我们在图1中用时间序列曲线来展示这十座中国城市的知名度。图1最大的特点就是:城市国际知名度呈现出非常明显的梯次和波动。所谓梯次,是指总体相对高低的层次;所谓波动,是指历史起伏的剧烈幅度。

例如,在1700-1900年的两百年间,北京、香港、上海和广州之中仅北京和广州在英语世界的书籍中被规模性地提及,且广州独领风骚,而北京只在1735-1744年间短暂地有所超越。直到1850年前后,上海和香港才开始出现在图中。进入20世纪以后,除广州长期在1860年左右的水平上下徘徊之外,其他三大城市的曲线出现了明显的上升。其中,北京一直强势上升并长期维持在高位运行;上海在20世纪30年代一度超越北京,但在新中国成立初期进入了低潮期,改革开放后又出现了明显的上升势头;香港的国际知名度自1948年起大幅提升,80年代中后期就赶上并超过了北京,并于1997年达到了峰值。此外,在这些梯次和波动中,尤其是峰值和谷底,都富含了大量的历史、政治、经济和社会信息。


四、城市知名度和媒体提及率

因《纽约时报》创刊于1851年,我们分别整理了近150年、近100年、近50年和近20年相关城市在该报的提及率排名,并将其与国际知名度排名一起综合在表3内。可以看出:媒体提及率和基于书籍大数据的知名度排名虽略有差异,但总体结构和特征都比较接近。总体上中国城市国际知名度的获得和媒体提及率之间呈现出一个比较稳定的相关关系。
为便于和图1的曲线比较,本文在图2中分别绘制了北京、香港、上海、广州、南京、澳门、天津、台北、重庆和拉萨等知名度前10名城市的媒体提及率曲线。

不难发现,尽管曲线的变化坡度等与图1大相径庭(这显然是由于媒体属性所致),但曲线的总体梯次和时段变化则非常接近。例如,无论是在国际知名度还是在媒体提及率指标中,广州的早期梯次都非常高,甚至超过北京、上海。在清末民初、新中国成立、中美建交等历史关口,北京的提及率和知名度都同样出现了曲线高峰。上海在20世纪30年代就超过了北京,香港则在90年代开始超越北京,如此等等,基本特征和图1中知名度的变化曲线非常接近。其他城市的媒体提及曲线和国际知名度曲线也呈类似的状态。


在大陆城市中,无论是开埠较早的广州、上海,还是相对处于内陆的西安、沈阳,它们的国际知名度都受到媒体提及率的影响。准确地说,早前数年的媒体提及率(或其变化)可以解释国际知名度(或其变化)。与此形成强烈反差的是,具有较长殖民地历史的香港、澳门和台北,其国际知名度和媒体提及率之间没有显著的统计关联。这意味着,英语世界对港澳台三城市的认知,更多地受到其他因素的影响,而不是通过媒体的中介作用。


五、 中国城市国际知名度的形成模式

根据前文的时间序列分析,可以发现,大陆城市的国际知名度更多地受到西方媒体提及率的影响,这初步验证了本文提出的“差异化”途径。接下来,本文将进一步完整地提出近代中国城市国际知名度形成的“二元模式”。
国际知名度获得的二元模式,主要是指在文化交流过程中存在的直接与间接的知名度获得过程。直接和间接交流的差异,在中国大陆城市和有较长殖民地历史的中国城市之间表现得非常明显。特别是,由于政治体制、市场结构和文化的差异,近代以来中国大陆城市在政治、经济、文化和人力资源的对外交流方面存在较高壁垒,而港澳台三城市曾长期作为殖民地,与西方社会的经济社会来往、人文政治互动等具有天然的畅通渠道。这种差异通过路径依赖和教育模式的复制而随时间不断强化(特别是在香港、澳门回归之前)。


总体上,这种差别的存在使得中国大陆城市和有较长殖民地历史的港澳台三城市在国际知名度获得方面形成了泾渭分明的两大类型。对于港澳台而言,它们“直接”成为中西文化对撞交流的窗口,较为接受西方文化,而西方社会也把它们视为自己的文化亲族,理所当然地会给予更多关注。对于大陆城市而言,它们在近代西方社会的国际知名度几乎只能通过当时的主要媒体来传递,形成“间接”的知名度获得形式。当然,随着20世纪80年代以来改革开放和全球化进程的加快以及交通运输、互联网技术的不断提升,这种直接和间接的知名度形成差异会不断弱化。

发表评论
评论通过审核后显示。