摘要: 随着数据密集型研究范式的不断兴起,科学数据集已成为重要的科研基础性战略资源,对其影响力进行分析和归因研究有助于科学数据开放共享和高效利用。本文从数据复用的视角来定义科学数据集的影响力,从数据集自身属性特征、数据集共现网络特征和提出数据集的论文特征三个方面,构建了包含十个因素的指标体系,综合采用传统回归分析和可解释机器学习方法对科学数据集影响力的影响因素进行研究。结果显示,数据集影响力主要受到数据集发布时间、共现网络特征和变种数等因素的影响,而数据集类型、关联论文的任务数等因素则影响较小;数据集变种数、加载器数量、关联任务数、PageRank值、论文发表时长以及论文作者数与科学数据集的影响力总体上呈正相关;此外,进一步揭示了各个变量对科学数据集影响力的作用曲线。本研究提供了科学数据集影响力背后决定因素的新认识,可为科研机构和人员数据管理实践提供参考。