大数据时代计算社会学面临的机遇与挑战
- 2016-08-02
- admin
第二届大数据与计算社会科学理论、方法与实践论坛综述
2016年中国社会学年会在兰州取得圆满成功,作为本次会议重要组成部分的“大数据与计算社会科学论坛”也成果丰硕。本次论坛由武汉大学社会发展研究院院长罗教讲教授召集,共收到投稿论文30来篇,参会人员20余人,两天共计16场精彩的学术报告,展示了计算社会科学领域在近期的研究成果,汇聚成为大数据时代计算社会科学领域的理论、方法与实践等三个重要方面。本次论坛人气旺盛,思想交流活跃,既展示了该领域的研究前沿,也传播了先进技术与方法;既体现学界前辈对青年学人的关怀,也凸显了中国80后学人敢于攀登科技前沿的勇气;既展示了大数据与计算社会科学的光明前景,也指出该研究领域目前面临的严峻挑战。所有这一切,为大数据时代计算社会科学在中国的发展起了重要推动作用。
大数据时代计算社会科学的发展机遇
大数据时代计算社会科学的兴起。大数据浪潮近年来在全球范围惊涛拍岸,由互联网、移动互联网、物联网等平台所汇聚的海量数据层出不穷,为科学研究提供前所未有的机遇,并在全球兴起了一种不同于通过实验、抽样调查等方法采集结构化数据进行实证研究的“计算范式”。会议一开始,罗教讲教授即指出,这个“计算范式”的兴起过程在自然科学领域已经如火如荼,大数据时代的到来,必定会引发社会科学领域的科学范式革命,这场革命突出地表现为“计算范式”的兴起,社会科学的实证研究从“计量范式”的一统天下到“计量范式”与“计算范式”的并驾齐驱,相得益彰。社会科学在“计量时代”取得了不小进步,但因为研究方法和技术手段限制,社会科学还有不少基本问题至今都没有得到解决,对于人类社会与人类行为规律的总结与发现,还处于非常初级的水平。大数据时代的到来,社会科学研究获得全新的数据来源,人们对复杂社会系统的信息收集与分析能力取得突破性进展,为社会科学范式革命提供了基础数据。
大数据对于社会预测的意义。社会科学的使命表现为对社会系统的描述、解释和预测,一直以来,人类在社会系统的预测方面建树甚少,这样一种状况和采集社会系统的数据存在困难有关系。天津工业大学阎耀军教授从控制论角度,展示了大数据对于预测社会复杂系统和实现前馈控制的重要意义。阎教授的报告给人印象特别深刻的是,他展示了一种来自110报警地点的空间信息数据,据此可以分析不同类型犯罪行为在城市空间的分布特征,进而为城市警力的布置提供依据和向导,也就是说,可以根据这种类型的大数据,预测城市不同空间位置上不同类型犯罪行为的发生概率。他们根据这样一种数据所获得的启示进行犯罪干预,结果使得天津某区域的犯罪率下降了50%以上。阎教授的报告,展示了大数据在社会治理领域的强大威力。
大数据分析社会事实的优越性。社会事实是社会学研究的基本对象,对社会事实进行分析以研究社会系统的运行规律是社会学得以建立的基石。武汉大学社会学系青年教师龚为纲以Google Bigquery这一大数据分析平台为依托,以“19世纪海上丝绸之路”为分析对象,归纳了大数据分析社会事实的基本特征,表现为:展示超长时间范围内社会变迁的历史长卷、获得超大空间范围内的全球视野、编织超高维层面社会要素的关联网络、透视超大社会系统的运作逻辑。很显然,大数据时代的计算社会科学,由于分析范式完全不同于过去100多年所兴起并日益成熟的“计量范式”,那么基于大数据的“计算社会科学”,对社会事实的分析有着怎样的研究方法和规则呢?恐怕这是未来大数据研究领域所必须面对的问题。
大数据有助于普适性社会科学规律的分析与证明。已有的社会科学结论,由于方法与数据源的限制,导致绝大多数社会科学的研究结论仅仅是“地方性知识”,这是因为很多社会科学研究的实证基础和经验边界具有地方性,通过已有研究方法拓展研究的经验边界极其困难,突出地表现为语言、文化的沟通困难,以及研究经费的限制。大数据时代的到来是发生在全球化的背景之下,目前有非常多的大数据在数据特征上具有全球性,这为研究者对研究对象的特征分析和研究结论的全球推演提供了可选路径。武汉大学社会学系副教授段文杰近年来一直在思考具有普适性的人类积极心理品质,他提出一个基于求知欲、自控力、亲和力的三因素框架,被一项基于百万样本的数据源所证明。他提出,要是能够从具有全球性的大数据中,获得这一结论的证据,将会为该研究的推进提供实证基础。
大数据时代计算社会科学的跨学科研究。社会系统本身具有高维属性,对社会复杂系统进行研究需要跨学科合作。大数据的重要特征就是数据的超高维品质,这为跨学科研究提供了合作平台。本次论坛的一个突出特征就是跨学科视角:清华大学博士后吕鹏和香港中文大学研究生叶翰璋以ABM分析方法为例,对群体性事件的发生逻辑进行了模拟;武汉大学大数据与计算社会科学研究中心主任罗俊、博士后陈铮从新闻学的视角,展示了微博平台上信息传播的偏态特征:即一事件发生之后,在微博等平台上进行传播时其负面性信息经常比正面信息具有更强的传播能力、传播范围和影响力。上海萌泰网络科技有限公司总经理李军从信息技术驱动的角度分析大数据研究方法的优势与缺陷,并将大数据研究与普查、小数据研究等调查方式进行了对比,得出大数据研究方法仍旧是一种基于大数据思维的统计调查方法的结论。
还有其它学者从不同视角展示了大数据研究的实践与运用。
与任何新兴事物的出现所面对的环境一样,大数据与计算社会科学在中国兴起之后,既面临因为发展不成熟而遭遇质疑和排斥的声音,也遭遇因为研究范式的不可通约而存在的冷遇和尴尬。故而,对大数据分析范式与大数据思维的批判在国内也一浪高过一浪,自然,这样一种状况在本次论坛上也蔚为壮观。
舍恩伯格的《大数据时代》是推动大数据浪潮的扛鼎之作,此书提出大数据分析思维具有三大特征,一是基于总体而非样本的思维,二是拥抱混杂性而非精确性,三是着眼于相关性而非因果性。很显然,舍恩伯格的这样一个具有革命性的、有关大数据分析范式的“宣言”,已引发激烈争议。武汉大学大数据与计算社会科学研究中心主任罗俊对舍恩伯格的这三个命题提出了一些修正性意见。
针对舍恩伯格的第一个命题,他认为,我们需要直面现实,现实生活中的大数据很少是完美的总体数据,总是存在各种各样的偏差和局限,舍恩伯格意义上的总体数据在现实中很少出现,甚至从来就没有出现过。以舆情研究为例,通过现有传感器比如twitter,facebook,新浪微博等平台,甚至是整个互联网上的数据,都只能算是“分众舆情”,即那些生产内容的用户,经常只是传感器用户中的一部分,另外,还有很多社会成员不是这些传感器上的用户,这样,网络舆情从来就不等于网民民意,网民民意更不是国民民意。针对舍恩伯格的第二个命题,他认为,对数据的质量不可忽视。由于“不请自来的民意伪造者”、网络水军在互联网上大量存在,以及其它的虚假信息的泛滥,这经常使得我们所获取的来自互联网、移动互联网的数据的真实性、可靠性值得怀疑。正是因为这样,舍恩伯格以混杂性为名对数据质量进行辩护,会引发大数据领域的研究者在思想上的混乱。针对舍恩伯格的第三个命题,罗俊认为,如果我们放弃对因果性的追求,等于研究者在数据的世界“自甘堕落”,放弃了人类对批判性反思的追求。
很显然,罗俊的“大数据批判”,对于大数据研究者保持清醒的头脑、保持谦虚谨慎的态度具有积极意义。这一批判也告诉我们,目前全球在大数据领域的确面临严峻挑战,这样一种挑战主要源于大数据基础上的计算社会科学目前还是一个新兴领域,在范式的基本前提假设、基本命题等方面还存在一个漫长的锤炼和完善的过程。