• 中国科学学与科技政策研究会
  • 中国科学院科技战略咨询研究院
  • 清华大学科学技术与社会研究中心
ISSN 1003-2053 CN 11-1805/G3

科学学研究 ›› 2025, Vol. 43 ›› Issue (5): 976-987.

• 理论与方法 • 上一篇    下一篇

科学数据集学术影响力归因研究———基于回归分析与可解释机器学习的双重证据

刘智锋1,吴亚平2,2,王继民1   

  1. 1. 北京大学信息管理系
    2.
  • 收稿日期:2024-04-09 修回日期:2024-08-06 出版日期:2025-05-15 发布日期:2025-05-15
  • 通讯作者: 王继民
  • 基金资助:
    开放科学数据集统一发现的关键问题与平台构建研究

  • Received:2024-04-09 Revised:2024-08-06 Online:2025-05-15 Published:2025-05-15
  • Contact: Jimin Wang

摘要: 随着数据密集型研究范式的不断兴起,科学数据集已成为重要的科研基础性战略资源,对其影响力进行分析和归因研究有助于科学数据开放共享和高效利用。本文从数据复用的视角来定义科学数据集的影响力,从数据集自身属性特征、数据集共现网络特征和提出数据集的论文特征三个方面,构建了包含十个因素的指标体系,综合采用传统回归分析和可解释机器学习方法对科学数据集影响力的影响因素进行研究。结果显示,数据集影响力主要受到数据集发布时间、共现网络特征和变种数等因素的影响,而数据集类型、关联论文的任务数等因素则影响较小;数据集变种数、加载器数量、关联任务数、PageRank值、论文发表时长以及论文作者数与科学数据集的影响力总体上呈正相关;此外,进一步揭示了各个变量对科学数据集影响力的作用曲线。本研究提供了科学数据集影响力背后决定因素的新认识,可为科研机构和人员数据管理实践提供参考。