【摘要】 Data Is Not All You Need! 如今有海量数据可供研究,确保数据质量和隐私变得更加紧迫。本期的「Nature封面」介绍了新兴研究领域「计算社会科学」,讨论了如何用大数据集解决社会问题。

早在苏美尔王国,这个智慧王国的人们就开始记录数据、进行人口普查和分发食物。

 

全世界最早产生的文明之一苏美尔的人口普查记录

 

苏美尔人促成了最早的书面数据分析记录。

 

随着计算机的出现,人们开始用机器来分析大数据集。这个阶段可以追溯到大型计算机时代。

 

 

计算机大大加快了数据分析的速度,在审计和普查中得到了广泛的应用。

 

近年来,将大量数据分析与社会问题相结合的计算社会科学取得了长足的发展。

 

大发展伴随着不受限制和不受管制的数据收集。

这存在很大的风险:缺乏监控和从匿名数据中重新识别身份的风险。

 

还有人担心,如果未经有关方面同意收集数据怎么办?

 

如果大部分数据被几家大型科技公司垄断了呢?

 

不仅是大型科技公司掌握的数据和数据的使用权倾向于发达国家和富人,决策难免会出现偏差。

 

因此,我们需要将社会科学与不同的学科以及收集和分析大型数据集所需的技能结合起来,这需要跨学科的合作。

 

然而,跨学科合作面临着许多挑战。

 

今天,《自然》杂志以特刊的形式讨论了当前计算机社会科学面临的挑战和机遇。

 

 

克服跨学科的语言障碍

 

计算社会科学是社会科学、自然科学和计算科学等的集合。

 

同一个词在不同的学科中可能有不同的含义。在这种情况下就很容易「鸡同鸭讲」。

 

例如,在社会科学领域,“预测”通常意味着“相关”;在物理科学领域,更多的是“预测”。

 

「token」在不同领域里也有不同含义

 

因此,不同学科需要克服同一术语表达不同意义的语言障碍。在进行跨学科研究时,科学家首先需要学习彼此的语言,然后提出一个能够相互理解的术语。

 

但与语言障碍相比,数据的展示、分析和解释,以及最终解释一种现象的难度更大。

 

例如,为了了解交通堵塞的原因,研究人员收集并预测交通流量数据,并向司机了解他们选择特定路线的原因。计算社会科学的互补特性可以更有效地回答研究问题。

 

处理数据的「大忌」

 

所有的研究结果都取决于分析策略,但也取决于数据的质量,尤其是在处理社会数据时。

 

为了完成计算社会科学的研究,必须要有大量的数据,比如手机定位信息。但是这些信息通常不是为了研究目的而收集的,所以很容易被误解。

 

对于研究人员来说,仅仅通过观察数字的趋势或模式来处理大型数据集是一个“禁忌”。研究人员应该考虑可能影响结果的因素。

 

为了提取数据的真实含义,研究者需要确保他们根据理论仔细定义测量对象,并对其进行适当的验证和解释。

 

 

算法的广泛影响是另一个潜在的错误。算法遍布社会,以不同的方式影响着个体和群体的行为,这意味着所有的观测不仅描述了人类的行为,而且描述了算法对人类行为的影响。

 

社会科学理论需要更新,以认识到算法的影响;没有这些理论,没有对算法对可用数据的影响的清晰理解,研究人员就无法得出有意义的结论。

 

共享数据的难处

 

大型数据集通常是商企的私有财产,这是计算社会科学的另一个复杂问题。搞学术的科学家需要跟企业联系才能获得访问权限,这有可能会产生更多偏见。

 

 

对于公司而言,数据是有价值的,因此共享数据会冒犯到公司的「底线」。这也是公司倾向于限制共享内容的原因之一。

 

但考虑到这些数据能提供社会效益,公司——连同学术研究人员和公共机构——需要共同解决这些问题,并为数据的质量、数据访问和数据所有权制定标准。 

 

未来获取数据的方式

 

一篇关于「人类社会感知」的文章对于如何获得有用、可靠的数据列举了一些方法。这是对个人如何在其社交网络中收集他人信息的研究。

 

例如,研究人员可以通过采访对象并询问他们的朋友在谈论什么,从而预测出政治观点的变化。

 

收集他人的数据有助于避免自我报告数据中出现的一些偏见,生成匿名数据也有额外好处:研究人员永远不需要知道他们获得的数据中,任何有关个人或敏感细节的信息。

 

 

获取数据的方式变得更加成熟,这一点体现在传染病建模和行为科学的交叉领域。

 

要建立准确的传染和感染模型,研究人员需要了解患病人群的文化和行为。如果不考虑传播的这些和其他社会方面的传播因素,就难以预测疾病的传播路径。跨学科的结构和广泛合作十分关键。

 

而新冠肺炎疫情已经表明,大规模数据集应用于科学能够挽救生命。随着具有计算机科学或应用数学背景的研究人员与社会科学家的合作,而这种潜力才刚刚开始显现。

 

参考资料:

https://www.nature.com/nature/volumes/595/issues/7866

 

免责声明:文章整合自网络,因内容庞杂无法联系到全部作者,如有侵权,请联系删除,我们会在第一时间予以答复,万分感谢。