孟天广教授作“计算社会科学交叉能力提升项目之名师讲座”第八讲 ——“计算社会科学的新演进:大数据、大模型与社会科学研究”
作者: 发布日期:2024-12-20 点击数:
2024年12月19日,由北京大学研究生院和计算机学院主办,联合中国社会科学调查中心及人文社科相关院系共同组织实施的“计算社会科学交叉能力提升项目之名师讲座”第八场讲座开讲。清华大学社会科学学院党委书记、政治学系长聘教授孟天广以“计算社会科学的新演进:大数据、大模型与社会科学研究”为主题做了精彩报告。
北京大学计算社会科学研究中心副主任陈薇副研究员主持了讲座,并为孟天广教授颁发“计算社会科学交叉能力提升项目名师讲座”主讲人聘书。
孟天广教授指出,数字智能时代的到来推动了社会科学研究的范式转型。传统的理论驱动和数据驱动方法在应对社会现象的复杂性时存在不足,而大模型的兴起提供了一种新研究路径,即“数据+算法驱动”的范式。这一范式结合了社会智能(海量、多维、预训练数据)和机器智能(自学习、自适应算法)的优势,能够更高效地模拟、挖掘和分析复杂的社会系统。
孟天广教授在报告中介绍了一项基于微博数据的研究,展示了计算社会科学在大规模数据分析中的应用潜力。研究团队收集了2012年至2017年间约2000万条微博数据,覆盖全国266个城市,形成了一个庞大的数据集。通过机器学习技术,研究团队对这些数据进行了深入分析,探索了社会情绪、公众态度等方面的变化趋势。研究过程中,团队采用了监督学习方法,通过人工标注训练数据,再利用算法预测大规模数据中的特定模式。这一研究不仅展现了计算社会科学在处理大规模数据时的技术优势,也为社会现象的定量研究提供了重要参考。
孟天广教授进一步探讨了大模型在社会科学研究中的多重应用。首先,大模型在概念测量中表现出色,通过无监督学习减少了人工标注的成本和误差,同时提升了测量效度和信度。其次,在因果推断方面,大模型可以模拟人类行为和认知,生成“硅样本”以采集数据,还可以利用内容生成能力优化实验设计。最后,在社会预测中,大模型凭借其文本理解和推理能力,可以识别抽象概念并预测行为态度。这些应用不仅提升了研究效率,还为社会科学研究开辟了新的可能性。
尽管大模型在社会科学研究中展现出巨大潜力,但孟天广教授也提醒我们关注其局限性和风险。首先,大模型对训练数据的依赖可能导致数据质量问题,甚至生成有偏或虚假的内容。其次,隐私保护和知识产权问题也备受关注,AI生成的内容可能涉及剽窃或侵犯用户隐私。此外,大模型的“幻觉”现象,即生成虚假信息的倾向,可能对知识生产和人类认知产生负面影响。孟天广教授强调,未来的研究需要在技术创新与伦理规范之间找到平衡,以推进AI 4 Social Science时代的来临。