“人类正在经历一场前所未有的数字化革命,科学数据的丰富度、关联性与开放性,将成为21世纪驱动科技创新的核心要素。”近日,在北京召开的国际数据委员会(CODATA)2019年学术大会上,中国科学院副院长、中国科学院大学校长李树深院士认为,继“观察实验”“理论分析”“计算模拟”之后,“大数据驱动科学发现”已成为科学研究的第四范式。
但在现实世界中,科学数据的发展也面临着机遇和挑战并存的局面。“海量且多样化的科学数据不断产生,大家却没有足够的系统去存储或者处理,80%有价值的数据都在两年之后就浪费了。”国际数据委员会主席Barend Mons认为,过去的一些系统和方法已经不适用于当下的大数据时代,机器的智能化处理和使用数据的能力亟待提升。
“的确,在推动科学数据管理和开放共享工作向纵深发展的过程中,我们也发现还有许多政策问题需要探索。”国家科技基础条件平台中心主任苏靖坦言,如何真正实现科学数据可发现、可访问、可互操作和可重用?如何通过建立通用互认的科学数据标识体系来保障数据知识产权?如何进一步使科学数据的全生命周期和统一的技术标准更加完善?如何有效推动科学数据的开放和传播,同时保障数据的安全?如何使科学数据的应用成为解决复杂问题、推动科技创新的真正驱动力?等等。“这些问题的探讨和解决正逐步提上议程,中国也正在成为国际上推动科学数据资源建设与发展的重要参与者。”
去年,国务院办公厅正式发布《科学数据管理办法》,并启动了国家科学数据中心的部署和建设工作。时隔一年,科技部和有关部门立足前期工作基础,在高能物理、基因组、气象、地震、海洋等领域组建了20个国家科学数据中心。这些中心将成为我国科学数据管理和开放共享方面重要的基础设施和载体。
对于国家层面出台的第一个科学数据领域的管理办法,中科院院士郭华东表示,这使得科学数据的管理和使用有了可遵循的章程和依据,也使得科学数据的开放共享在科学界达成共识。但他同时也提出:“在《办法》推进的过程中还需要着力解决数据权益保障等一系列问题,才能使办法真正落实落地。”
CODATA中委会副主席、中国科学院计算机网络信息中心主任廖方宇进一步解释说,站在科学家个人的角度来讲,存在一个科研竞争的压力问题,有的人很难得到科研数据,但有的人有了科研数据却不一定能产生很好的结果,如何来平衡评价?应该出台什么样的激励机制?另一方面,从国家的利益考虑,在国外核心期刊发表论文,科研数据提交到指定的储存机构,有时候就必然面临数据流失、知识产权得不到保护的问题。
而国家基础学科公共科学数据中心主任胡良霖最关心的则是数据质量的问题,哪些数据需要保存?该如何保存?比如,一些数据在最初采集的时候成本比较大,经过几年采集技术的快速发展,成本已经大大降低,而长期使用的存储介质的费用远高于最新采集的成本,要不要把历史上存留的这么多数据都保存下来?他建议,我国急需建立自主可控的国际级权威数据库,推动科学数据的分级保存,并且对保存的数据做出明确分级指导和界定。
会上,一些与会专家也呼吁,国际数据同样需要在全球开放共享。“多国科学家贡献科学数据共同建设的数据库,应当在贡献者所在国提供镜像服务,以保证各贡献国对数据的平等获取权;对于国际期刊发表论文要求提交数据,期刊应当与论文作者所在国联合确定论文关联数据的存储机构,首选在其所在国的优质数据存储机构。”专家们说。
苏靖表示,希望国家科学数据中心能够很好地承担起科学数据管理和开放共享的功能,支撑更多具有世界领先水平的重大科学发现和原创性的技术突破,推动科技创新能力提升和经济社会发展。