可重复性
可重复性(Reproducibility)是科学研究的基石,也是区分科学与伪科学的核心标准。
广义上,它指不同的研究者使用相同的材料和方法,应当能得出一致的结论。然而,在现代元科学(Meta-science)语境下,特别是生物医学和计算科学领域,它有着更严格的定义:特指使用相同的数据集和相同的分析代码/方法,能够再次生成相同结果的能力。与之相对的“可复制性(Replicability)”则指在新的实验中收集新数据并获得一致结果。近年来,生物医学界爆发的“可重复性危机”促使了开放科学运动的兴起。
术语辨析:Reproducibility 矩阵
在数据科学和生物医学领域,术语的混用常常导致误解。目前国际上(如 Turing Way 社区)公认的分类矩阵如下:
| 相同的数据 (Data) | 不同的数据 (Data) | |
|---|---|---|
| 相同的分析 (Code/Method) |
Reproducible 计算验证的基础。例如:你能运行我的代码并得到同样的图表吗?
|
Replicable 实验验证的基础。例如:我在新一批小鼠上做同样的实验,结论一样吗?
|
| 不同的分析 (Code/Method) |
Robust 用不同的软件或统计方法处理同一批数据,结论是否依然成立?
|
Generalizable 科学的终极目标。在不同人群、不同环境、不同方法下,真理是否普适?
|
可重复性危机:房间里的大象
2016 年,《Nature》杂志对 1,576 名研究人员的调查显示,70% 的人曾试图复制同行的实验失败,超过 50% 的人甚至无法复制自己的实验。
- HARKing (Hypothesizing After Results are Known): 在看到数据结果后,再回去编造一个“完美”的假设,伪装成验证性研究。这使得 $p$ 值失去了统计学意义。
- P-hacking (P值操纵): 尝试多种统计方法、剔除部分“异常值”或不断增加样本量,直到 $p < 0.05$,且仅报告显著的结果。
- 方法描述模糊: 论文中一句“如前所述(as described previously)”往往掩盖了关键的试剂批次、温度微调或孵育时间,导致实验无法复现。
- 缺乏原始数据: 仅发布处理后的图表,不提供原始数据(Raw Data)或分析代码,使得同行无法核实计算过程是否正确。
关键相关概念 [Key Concepts]
1. Pre-registration (预注册): 解决 HARKing 的终极方案。研究者在开始收集数据之前,将假设、实验设计和分析计划上传到公共平台(如 OSF)。无论结果是否显著,都必须按计划发布。
2. FAIR Principles (FAIR原则): 科学数据管理的金标准。要求数据必须是 Findable (可发现)、Accessible (可获取)、Interoperable (可互操作) 和 Reusable (可重用)。
3. Method Sharing: 使用 Protocols.io 或 Protocol Exchange 等平台发布详细的、版本可控的实验步骤,代替传统的 PDF 补充材料,是提高实验可重复性的技术手段。
学术参考文献 [Academic Review]
[1] Ioannidis JP. (2005). Why most published research findings are false. PLoS Med.
[点评]:元科学领域的震撼弹。通过统计学推导证明,在样本量小、效应值低、研究灵活性大的领域(如当时的生物医学),大多数发表的显著结果实际上是假阳性。
[2] Baker M. (2016). 1,500 scientists lift the lid on reproducibility. Nature.
[点评]:著名的 Nature 问卷调查,正式将“可重复性危机”这一概念推向了主流科学界的聚光灯下。
[3] Munafò MR, et al. (2017). A manifesto for reproducible science. Nat Hum Behav.
[点评]:一份行动指南。提出了提高科研质量的具体措施,包括改进方法学培训、推广预注册、鼓励数据共享等。