国家基础数据中心胡良霖:建议试点经费补贴推动科学数据汇交
数字政府建设是推进治理能力现代化的重要支撑,是经济社会高质量发展的必然选择。而盘活数据资源是数字政府建设的关键之举。南方都市报、南都大数据研究院推出系列专题,专访数据开放实践者、治理标准制定者、数据安全护航者、数据立法起草者等,并且挖掘数据应用创新举措,探寻数治能力优秀区域,以“30人访谈为引,以20城案例为鉴”,致力呈现新时代下的“数据新作为”,共谱数智新篇。
“科学数据本身价值在于开放共享,也符合科学无国界的精神。但并不是说所有科学数据都要开放共享,按照国际共识估算能够开放共享的科学数据占比约为71.5%”,这是中国科学院计算机网络信息中心大数据部副主任、国家基础学科公共科学数据中心主任胡良霖,接受南方都市报专访时表达的观点。
科学数据是国家重要的基础性、战略性资源,是信息时代传播速度最快、影响面最宽、开发利用潜力最大的科技资源。如何确保科学数据在全生命周期内的合规使用和有效保护,满足科技创新对科学数据的管理需求?在胡良霖看来,需要推动国家自产的科学数据进高校、进图书馆、进课堂、进教材、进考题,培养学生使用国产科学数据库,营造科学数据汇交文化,面向数据汇交优化科技计划项目经费预算和使用,对承接科学数据汇交工作的科学数据中心给予经费补贴,实现数据驱动创新、数据可持续发展的目标。
科学数据驱动科研创新成效很多
南都:科学数据与工业数据、金融数据并称为三大数据,是大数据时代最为重要的数据之一。共享开放是科学数据产生价值的关键所在。目前,科学数据开放应用现状如何?
胡良霖:国内外都在大力推进科学数据开放共享,去年联合国教科文组织发布全球“开放科学倡议书”(NESCO Recommendation on Open Science),开放科学数据是重要内容之一。1957年成立的世界数据中心(World Data Centers,现更名为世界数据系统World Data System)主要处理、交换科学数据,1988年中国正式加入该组织。国际数据委员会(CODATA)原称国际科技数据委员会,成立于1966年,其宗旨是推动科技数据应用,发展数据科学,促进科学研究,造福人类社会,1984年6月中国作为国家会员加入CODATA。
科学数据开放共享是主旋律,但并不是说所有科学数据都要开放共享,需要遵循各国安全法律法规,在合法合规前提下最大程度开放共享,利于充分利用。2018年3月,欧盟发布《科学数据开放共享的成本效益研究》报告,按照国际共识估算,能够开放共享的科学数据占比约为71.5%,目前国内没有这方面的研究。
科学数据应用广泛,开放共享与应用效果良好。科学数据驱动科研创新成效很多,比如FAST数据研究发现脉冲星等。科学数据在支持国家宏观决策方面有很好应用,如新冠疫苗研发与抗疫决策,自然灾害发生时应急救援等。科学数据助力企业自主创新也有良好产出,如材料数据支持珠港澳大桥建设、钢铁企业增产提效等。
虽然科学数据已经发挥巨大作用,但仍有一些工作没有做到位,影响到科学数据更广泛或深刻利用,背后深层次问题值得重视。今年年初我们统计分析了“双一流”高校图书馆主页推荐的数据库,获取42所一流大学、73所一流学科高校(95所一流学科高校中有22所高校图书馆主页获取不到相应信息)的图书馆推荐数据库信息,共计15756条,其中事实数据库约2000条,而推介国内科学数据信息不足50条。
近年来,我一直呼吁推动国家自产的科学数据进高校、进图书馆、进课堂、进教材、进考题。培养学生使用国产科学数据库,促进数据库健康良性发展。部分领域科学数据可能无法一步到位,与国外多年建设的数据库一样提供完全同质甚至更优服务,如果国产数据库能满足学生70%-80%需求,就应该引导他们用国产数据资源,通过他们的反馈加以完善发展。
今年,我们国家基础学科公共科学数据中心(简称国家基础数据中心)的中国动物主题库相继被浙江大学、南京农业大学、安徽师范大学、广西大学、大理大学等10多家高校机构图书馆收录,这是很好的开端。暑假期间,16个国家科学数据中心联合人大附中以及北京、广州、深圳、杭州等国内11所中学的学生会,共同开展“走近科学大数据”公益系列讲座,广受好评。
广东已设立7个省级科学数据中心
南都:我国印发《科学数据管理办法》为科学数据管理确定行动纲领,据你了解哪些区域在科学数据管理、开放、应用上做得较好,有哪些亮点?
胡良霖:《科学数据管理办法》发布之后全国多地积极推动落实,主要有两个方面进展:一是细化政策,二是建设省级科学数据中心。
具体而言,我们粗略统计全国有15个地方发布配套科学数据管理实施细则,包括陕西、黑龙江、甘肃、云南、湖北、吉林、安徽、内蒙古、广西、江苏、海南、山东、四川、上海等。而省级科学数据中心建设方面,2021年甘肃成立三个省级数据中心,包括一个总中心和两个学科领域的中心,依托中国科学院西北生态环境资源研究院建设的国家冰川冻土数据中心承担建设甘肃省科学数据总中心,依托兰州大学成立甘肃省气候变化的数据中心,依托甘肃省地震局成立自然灾害的科学数据中心。广东2021年底成立7个省级科学数据中心,总中心是广东省科技技术条件平台承担,其他包括农业、林业、地理、中医药、基因组等。
我个人认为,在全国层面,广东科学数据工作比较领先,通过支持省级科学数据中心建设,以之为抓手把工作做实,期待广东发布科学数据管理实施细则类文件。
中国科学院、中国农业科学院、交通运输部等机构在科学数据方面开展了不同程度的工作。《中国科学院科学数据管理与开放共享办法(试行)》2019年2月发布,推动建设中国科学院科学数据中心体系。《中国农业科学院农业科学数据管理与开放共享办法》2019年7月发布。交通运输部2020年6月份在官网就《交通运输科学数据管理办法》(征求意见稿)公开征求意见,去年11月份交通运输部公路科学研究院、天津水运工程科学研究院联合国家基础数据中心共同建设交通运输科学数据分中心。
充分利用信息技术手段提升数据质量
南都:为了规范管理国家科技资源共享服务平台,全国已公布建设首批20个国家科学数据中心。如何确保科学数据的质量以及更好服务科技创新?
胡良霖:国家科学数据中心很重视数据质量问题,这是立身之本。过去两年多时间,国家科学数据中心制定发布一系列与数据质量关联的政策文件、标准规范,开放配套工具软件予以固化落实。以国家微生物科学数据中心为例,已经汇聚全球50多个国家资源,也是国际微生物数据中心,主导研发国际标准有效提升数据质量、加工数据产品。在国家标准层面,设有全国科技平台标准化技术委员会,专业研发科技资源开放共享方面的国家标准,下设科学数据专家组,20个国家科学数据中心均有代表参与,推进科学数据标准研制、应用。
国家科学数据中心充分利用信息技术研发特色数据软件,部署云端或客户端,通过软件固化数据质量方法、数据质量标准,全程质保数据采集加工、融合、分析挖掘和应用,促进数据的优质高效利用。如此,越来越多的科学数据源源不断从采集端“流到”国家科学数据中心,同时国家科学数据中心还有部分职能是收集、管理和开放国家科技计划项目汇交的科学数据。
无论是流入的数据还是数据汇交,对质量控制要求更高,建议把数据质量工作前移,以贯彻全生命周期的数据质量观基础上把好数据生产关。具体而言,要贯彻全生命周期数据质量观念,无论ISO9000认证还是软件领域CMM认证、数据管理能力成熟度评估(DCMM)认证等,都要融入全生命周期和全要素的质量控制观,借助工业产品质量的理念,融入科学数据全生命周期落实管控,任何可能影响数据质量的因素要通盘考虑纳入全生命周期去管控。同时,充分利用信息技术手段,实现数据操作尽量避免人为干预,有效提升数据质量。在软件或人为操作数据过程中,建设完备的回溯机制,以保证质量问题发生后能回溯纠偏。
科学数据汇交的文化需要营造
南都:开展科技计划项目数据汇交管理与共享,对促进科学数据的整合集成,增强国家科技投入的效益,提高我国科技计划项目管理水平具有重要意义。当前科学数据汇交情况如何?最大难点在哪里,如何解决?
胡良霖:当前科学数据汇交处于试点阶段,《科学数据管理办法》明确国家科技计划(专项、基金等)项目科学数据汇交制度及相关要求。2018年,科技部印发《国家重点研发计划项目综合绩效评价工作规范(试行)》,明确提出“需要汇交的数据”在综合绩效评价时“应提交由有关方面认可的科学数据中心出具的汇交凭证”。目前,国家重点研发计划项目科学数据汇交进展良好,据我所知目前没有发生因为科学数据汇交工作影响国家重点研发计划项目综合绩效评价的案例。
试点工作困难很多,我觉得主要包括几个方面:
一是营造数据汇交文化。科学数据汇推行两年多时间,仍有很多项目是首次开展科学数据汇交,不乏有抵触情绪,认为不仅交出数据,而且额外增加工作量。因此,需要全社会营造数据汇交文化,普及数据汇交知识,各级各类科技计划项目在立项阶段就要做好科学数据汇交计划。对很多地方机构而言,可能先要解决承接科学数据汇交工作的科学数据中心建设,建议各地结合实际引进国家科学数据中心服务本地工作。
二是数据质量问题。一个项目汇交数据超过10TB,专家评审就很困难,建议数据质量管控融入数据生产全生命周期,由数据提交人长期负责。科学数据汇交是把科学数据作为科研活动成果,提交到国家科学数据中心进行发布应用,类似于文章发表,作者在期刊发表文章后,如有问题需要终生负责。数据汇交也类似,汇交到国家科学数据中心的数据发布之后,用户发现质量问题,应追责到原始提供方。
三是经费使用问题。数据汇交是新业务,面向数据汇交开展数据加工整合需要相应经费支持,特别是很多项目需要重新投入资金与精力开展。但目前国家科技计划项目经费管理体系没有数据汇交科目,2022年6月,中国注册会计师协会修订印发《中央财政科技计划项目(课题)结题审计指引》没有在相应科目中提到“科学数据”,科学数据汇交相关经费纳入课题预算,没有政策制度依据。缺少相应经费,对工作开展不利,更不利于科学数据汇交业务常态化,建议有条件地推动经费管理试点改革,在经费科目设置、预算方面加大对科学数据工作全面支持,对承接科学数据汇交工作的科学数据中心按照汇交业务数量给予经费补贴。
四是汇交数据再利用问题。利用已汇交到国家科学数据中心的数据,需要培养社会各方使用习惯。国家基础数据中心今年推出三项举措推进汇交数据的利用:年初发起首届优秀学术成果评选活动正式启动,各界利用我们中心数据产出的成果都可以来参评;7月份数据应用创新课题征选,通过自主申报、专家评审,遴选出纳米科技、新能源汽车两个方向,基于汇交科学数据开展深度研究;依托广州物联网研究院把广东省科研机构汇交的数据带回广东、服务广东,据不完全统计,目前已有50多项广东省科研机构、高等院校和科技公司牵头的重点研发计划项目已经汇交到我们中心,近期将联合广州物联网研究院探索优先服务广东本地乃至粤港澳大湾区的新模式。
建议社会各界做工作需要使用数据的时候,先去国家科学数据中心网站看看有没有直接可用的数据。只有用起来,才能实现汇交数据的价值,实现数据驱动创新、数据可持续发展的目标。
建议尽快制定科学数据核心清单等
南都:《科学数据安全标准体系》《科学数据安全管理指南》等标准正在研制,我们需要如何更好构建安全保障体系,确保科学数据安全?
胡良霖:这几项标准已在国家标准化委员会网公示立项,《科学数据安全标准体系》《科学数据安全管理指南》等是中国科学院计算机网络信息中心牵头承担的国家重点研发计划项目“科学数据安全技术及基础技术标准研究”的部分成果,还有一系列团体标准与配套工具软件。此项目是我国《数据安全法》颁布之前部署的,应该说充分体现我国科学家和科技部项目管理机构的前瞻布局。《数据安全法》实施后,科学数据安全受到各方高度关注,上述标准呼应部分法规内容进行了明确,更多细化性可执行政策文件正在研制中。
构建数据安全保障体系,确保科学数据安全,我认为要在全面贯彻落实国家网络安全、数据安全、个人信息保护等系列法规的基础上,结合各学科领域特点、数据资源特点研制更明确、更具实操性的指导文件,辅以软硬件基础设施的全面提升,实现科学数据的安全防护,在确保科学数据安全的前提下落实《科学数据管理办法》提出的“开放为常态、不开放为例外”的原则。
科学数据安全最大的挑战在于平衡与开放共享的关系,以及互联网环境下国内开放与国际开放的关系。《数据安全法》等系列文件明确了重要数据、核心数据、出境数据等宏观的要求,但科学数据涉及学科领域广泛、类型复杂多样,目前看很难平衡宏观原则和实操指导方面的矛盾。建议尽快制定科学数据核心数据清单、重要数据清单、出境数据清单,清单明确的数据严格按照相应的政策去管控,清单外的数据应大力推进开放共享。当然,清单需要每年更新,必要时实时更新,以保证数据安全。也就是说,应该保护的数据应明确保护到位,可开放的数据大胆开放,充分利用科学数据驱动国家创新发展,国际上树立新形象,引领新时期后疫情时代的国际合作。
(文章来源:南方都市报)
本文来源于网友自行发布,不代表本站立场,转载联系作者并注明出处