我所结合学习习近平总书记讲话精神和“四史”教育举办“科技创新与国际问题研究”系列讲座活动——清华大学助理教授陈冲谈大数据时代的机器学习与冲突预测

    2020年11月6日,我所举办的“科技创新与国际问题研究”系列讲座第三场活动在国际所会议室举行。活动中,清华大学国际关系学系助理教授、博士生导师陈冲博士应邀进行了题为“大数据时代的机器学习与冲突预测”的讲座,讲座由王健所长主持。

    陈冲博士首先提出大数据这一概念在社会科学界尚没有一个统一的标准,政治学界对大数据的应用重点不是数据的容量,而是主要体现在获取新数据、运用新技术,主要是研究方法和理论的创新。以5V为特征的大数据技术以前所未有的数据形式、数量与产生速度,结合测量革命以来统计方法的不断提升,为老问题提供新证据,运用数据分析发现新问题,日益体现出其重要的学术与现实意义。

    陈冲博士指出,庞大的数据、不断创新的方法也面临诸多挑战,如何有效利用数据、如何将数据分析与研究设计、理论创新及因果推论结合在一起从而避免数据陷阱,不断提升不同层面数据与解释对象的适配性,在研究中需要格外注意。


    就运用机器学习方法进行冲突预测这一研究领域,数据来源主要包括文本数据分析、地理空间数据、建模以及信息通讯技术等。通过学习数据的模式与趋势来建立、选择模型,继而利用既有数据对模型进行训练。使用样本中与样本外的数据对模型进行评估,并交叉验证。通过不断重复上述步骤来选出最佳模型。最后用新数据进行预测,并处理数据处理中出现的不确定性,并形成最终结果。


    在讲座中,陈冲博士以缅甸冲突预测为案例,具体分析了其运用机器学习方法对缅甸未来冲突爆发的预测研究。该研究主要从PRIO-GRID 2.0(http://grid.prio.org/;以0.5X0.5经纬度划分单元格)、TheArmed Conflict Location& Event Data Project(ACLED)以及卫星夜间灯光数据(860x860平方米分辨率)三个数据库获取研究数据。将2010年4月1日-2020年9月30日共129个月的月度数据进行分割。以2010年04月-2017年4月共85个月的数据,通过SPDM估计四个主题模型进行数据训练。以2017年5月-2018年12月共20个月的数据,通过SPDM模型与实际数据,进行数据校正。以2019年1月-2020年9月的21个月的数据进行数据测试,作为未来6个月的预测窗口数据。最后将2020月10-2021年3月作为未来6个月的预测期。通过使用SPDM、EBMA等四个模型来模拟预测,发现有16个网格在未来6个月有很高概率爆发冲突。


    最后,余建华副所长主持了互动环节,我所研究人员与陈冲博士进行了广泛互动。