Open Data

来自医学百科

开放数据(Open Data)是指任何人都可以自由访问、使用、修改和分享的数据。它仅受限于旨在保护来源(如署名要求)或保持开放性(如相同方式共享)的最低限度的法律许可,而没有版权、专利或其他控制机制的限制。
在科学研究领域,开放数据是 Open Science(开放科学)的核心支柱之一。为了确保数据的真正可用性,全球科学界目前普遍遵循 FAIR 原则(可发现、可访问、可互操作、可重用)。开放数据不仅能提高科研的可重复性,还能促进跨学科创新和公共政策的透明度。

Open Data
Free, Reusable, Interoperable (点击展开)
数据资产的公共化
基本属性
核心定义 Open Definition (OKF)
指导原则 FAIR Principles
常用许可 CC0, CC BY
文件格式 CSV, JSON, XML (非专有)
存储与管理
通用库 Zenodo, Dryad, Figshare
基因组库 GenBank, GISAID
关键文件 DMP (数据管理计划)

黄金标准:FAIR 原则

仅仅把数据放在网上并不等于“开放数据”。为了让机器和人类都能有效利用数据,学术界制定了 FAIR 原则 (Wilkinson et al., 2016):

  • F - Findable (可发现): 数据必须有唯一的持久标识符(如 DOI),并附带丰富的元数据 (Metadata),以便在搜索引擎中被索引。
  • A - Accessible (可访问): 数据应通过标准的通信协议(如 HTTP)获取。注意,“可访问”不代表完全公开,敏感数据(如患者隐私)可以有身份验证机制,但元数据必须始终公开。
  • I - Interoperable (可互操作): 数据应使用正式、通用的语言和词汇表(如本体论 Ontology),以便与其他数据集结合使用。避免使用私有格式(如 .xls),推荐 .csv 或 .xml。
  • R - Reusable (可重用): 数据必须附带明确的许可协议 (License),说明他人可以如何使用这些数据,并注明数据来源出处。

法律框架:许可协议

开放数据必须明确“权利”。最常用的许可协议来自 Creative Commons (知识共享) 和 Open Data Commons。

协议类型 含义 适用场景
CC0 (Public Domain) 放弃所有权利。 最推荐用于数据。允许科学家将多个数据集混合而无需担心复杂的归属链。
CC BY (Attribution) 使用时必须署名。 学术出版物的标准许可。用于数据时可能导致“署名堆叠”问题(Attribution Stacking)。
CC BY-NC 禁止商业用途。 不符合“开放数据”的严格定义,因为它限制了使用领域。
       关键相关概念 [Key Concepts]
       

1. DMP (数据管理计划): 一份正式文件,描述在研究过程中及结束后如何处理、组织、存储和共享数据。现在许多资助机构(如 NIH, 欧盟 ERC)强制要求提交 DMP。

2. Metadata (元数据): “关于数据的数据”。例如:这组数据是谁在什么时间、用什么仪器采集的?没有元数据的开放数据是毫无价值的“数字垃圾”。

3. Data Repository (数据存储库): 长期托管数据的在线平台。包括通用型(如 Zenodo, Figshare)和领域特定型(如 GenBank, PDB)。

       学术参考文献 [Academic Review]
       

[1] Wilkinson MD, et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data.
[点评]:数据科学的基石文献。系统提出了 FAIR 原则,被 G20 和 G7 采纳为科学数据共享的准则。

[2] Open Knowledge Foundation. (2020). The Open Data Handbook. OKF.
[点评]:提供了开放数据的法律、技术和社会方面的实操指南,定义了什么是“开放”。

[3] Molnár-Gábor F, et al. (2017). International data sharing in medical research. Nature Reviews Genetics.
[点评]:讨论了在医学基因组学领域共享数据时面临的隐私(GDPR)与开放之间的平衡挑战。

           开放科学体系 · 知识图谱
上级分类 Open Science (开放科学) • 数据科学
核心原则 FAIR Principles (可发现/可访问/可互操作/可重用)
工具/平台 ZenodoDOICreative Commons