当前位置:首页 > 新闻动态 > 综合新闻

中国生态研究网络的数据共享“实验”

发布时间:2006-02-28

 

“数据对于我们的研究太重要了”

      “数据对于我们的研究太重要了!没有数据,我们科研工作就成了‘无米之炊’。我国地理学研究的很多方面之所以落后于国外,除了科学思想和研究方法有差距外,还有一个重要原因就是数据不行,有些数据拿不到、精度不够、不成系统甚至不能用。”一位研究人员在接受记者采访时如此表示。

       受数据困扰的不仅是地理学者。记者了解到,很多科学家也常苦于缺乏有用可靠的科学数据源。发达国家之所以能推出很多好的成果,其原因之一是它们可以获取标准化数据和实现数据共享。数据共享不够已经成为阻碍我国自主科技创新和影响科学发展的一个瓶颈。

       获得数据对普通研究人员来说并不是一件轻松的事情,要看各人的关系与能耐。一位研究人员总结了以下三种途径:一是自己观测。这需要长期的经费与精力投入,还要忍受出成果慢的压力;二是通过私人关系要或买。有些数据每一个记录就要几块钱,通常买不起,私下给个人钱可以便宜一些,但这些钱很难入账;三是通过项目合作获得。这实质上也是买,不过绕开了钱难入账的问题,往往只有大项目才能做得到。即使这样,所获取的数据也不能尽如人意。“通常别人不会很痛快地给你,即便给你也往往会留一手!”

       一些年长的学者,对数据有他们的解决之道。一是长期在一个地区做工作,这样积累的资料数据自然多一些;二是利用各种机会和关系,也容易要到资料。而对经费较少的年轻研究人员来说,虽然也可以从“老前辈们”那里要到一些数据和资料,但无法确保总能要到。

       现在虽然有人在私下里得到一些数据,但由于来路不正,一定程度上影响了成果的说服力,腰杆不直,自然也就没有那么理直气壮了。

       对很多研究人员而言,可以说,数据是永远的痛与梦。

数据共享的一个里程碑

       2006年1月12日,中国生态系统研究网络(以下简称CERN) 数据共享系统发布会举行,对很多研究人员而言,这无疑是一个好消息。“这是一个里程碑!”有人评价说。

       CERN以共享方式为全国广大用户提供系统的、动态的、连续的地面生态系统常规监测数据的共享服务,在我国生态动态监测领域尚属首次。这标志着我国长期生态系统动态监测、台站空间信息、多要素定位科学观测研究数据等生态学各领域基础科学数据共享时代的正式到来。

      “科学数据共享是一个对科技发展具有积极推动作用的重大战略问题,多年来一直是科学家们梦寐以求的愿望,也是近年来科学界不断努力推动的一项重大事业。”中国科学院资源环境科学与技术局局长傅伯杰表示。 

       其实在上世纪80年代以前,我国的很多数据还是能公开的。在80年代后期到90年代以后,很多数据就不能共享了。一方面,测出来的数据实际上就睡了大觉;另一方面,很多研究人员想获取这些数据则是困难重重,甚至要到国外去抄国内的数据。中国气象局在2001年底启动的气象科学数据共享试点项目,公布部分气象数据,正式开了我国科学数据共享之先河。

       作为CERN的主管单位,推动科学数据共享一直是中国科学院资环局的目标。资环局原学术秘书陆亚洲介绍,早在建立CERN之前,资环局就已经要求各开放台站所获数据在自己先使用三年后,就要共享出来,向外公布。但由于观念、资金、人员等的限制,有的台站做到了,有的台站没能做到。在资环局的主导下,2000年CERN制定《数据共享与管理条例》,并据此进行数据服务,中国科学院内部的数据开放此时就已经开始。
 
       谈到数据共享的重要意义,中国科学院禹城综合试验站站长欧阳竹表示:“从国家,从科学家个人,都迫切需要数据共享。共享以后,各方面投入的效率高了,不需要重复投入。像我们做生态的,不可能大家都去测数据,数据也不是在实验室里做个实验就行的,而是要几年、几十年去做,时间上也不允许你去重复,一代人就做这一件事。如果数据不能共享,下一代人还得花费很多时间、精力去做这件事情,而且有的科学现象是不可能重复的。” 

       北京林业大学水保学院副院长朱清科教授表示:“某个人所测的数据是按他的思路去整理,他整理的思路不一定是科学的,因为个人的想法难免有局限。如果数据让大家去整理,让从事不同行当、专业门类的人们从多个角度去看,也可以分析得出不同的结论来,这使科学的发展能互相印证,可以达到另一种共享。北京林业大学也有定位站,我希望下一步数据也能共享出来,起码大家不做重复性的工作。中国科学院能迈出这一步,是对科学发展的一个贡献!”

       CERN的36个台站在区域和生态系统类型方面有很好的代表性,同时技术水准比较高,数据准确性、系统性都比较好。

     “CERN数据做得挺好的,数据管理也挺规范。我看了共享数据的光盘,很详细,包括一些原始数据也共享了,整理得挺好的,对于研究区域性问题很有意义。”朱清科表示。

       毕竟在中国大多数公共基础数据还不能共享,中国科学院也想以此带动全国科学数据共享的发展。[SplitPage]

艰苦的数据获取为的是让更多人分享

       数据的采集与整理显然不是一件轻而易举的事情,而是一项艰苦而细致的系统工程。数据采集手段经过三个阶段的发展。国家生态系统研究网络综合中心主任于贵瑞博士介绍,传统手段是以人工采集为主,拼体力把工具与简单仪器扛到田间去测量;第二个阶段是用常规仪器监测,需要现场人工操作,并逐一记录;现在已经进入到第三阶段,随着观测仪器和观测手段的发展,生态自动观测越来越普遍,数据采集的数量和频次大大增加,不同数据的同步采集也越来越普遍,数据质量也更高了。但放在野外的自动监测仪器也会受到自然界各种因素的干扰,需要人力不断维护,而且会出现一些异样数据,需要根据各仪器性能去伪存真加以剔除。另外服务于共享的数据必须进行初期处理,否则,研究人员就无法使用,很多因素都会增加数据整理的工作量。

       CERN由分布在中国科学院20个研究所的1个综合中心、5个学科分中心、36个野外台站组成。所要共享的数据是通过数百人长年累月监测得来的,用“日复一日、年复一年”来形容实不为过。野外台站承担数据的现场监测,分中心主要负责数据质量控制,综合中心负责数据管理、集成和发布。

       CERN综合中心副研究员何洪林表示,CERN监测规范和数据标准等可以说是居于国际同行前列的。CERN自1988年建立以来,根据CERN科学委员会制定的统一监测规范、统一标准的仪器,对分布在全国各生态区的农田、森林、草地、荒漠、海湾、湖泊、沼泽等不同生态系统的水、土、大气、生物四大要素进行观测,获取长期观测试验数据。通过CERN科研人员和数据管理人员的共同努力,通过从站、分中心到综合中心的层层数据审查和质量控制,集成形成了具有中国科学院自主知识产权的站、分中心和综合中心的三级长期生态监测数据库。同时,CERN的36个生态站也是我国生态学、地学研究的野外平台,很多科研人员在这个平台上工作,积累了大量的专项科研数据。

       CERN一方面采集和获取数据,另一方面也承担数据开发、整理和共享以及数据信息系统建设的任务。因此,各生态站、分中心和综合中心按照自己的研究特色,整理和开发了一些具有自己研究特色的、为生态系统研究服务的数据集。如禹城综合试验站的土壤水分数据集、封丘试验站的盐分数据集等。

       CERN领导小组办公室副主任牛栋介绍,CERN将不断提高数据获取能力、扩大数据共享力度。除了推动生态系统长期监测工作外,下一步将把依托野外台站的研究项目所生产的数据进行搜集、整理、整编,并从更多渠道获取数据,形成针对长期生态学研究的数据系列产品,免费提供给相关领域的科学家。“我们欢迎越来越多的科学家使用CERN的数据,不论是中国科学院内部还是外部的科学家,也不论是国内的还是国外的科学家,我们都欢迎。同时希望这些科学家在使用CERN数据后,能及时反馈意见,以帮助我们不断提高数据质量,让科学家们在此基础上取得更好的研究成果,写出更多高水平的论文。” 

       信息化的科研环境(e-Science)已经成为国际科学界研究与应用的热点,目前,中国科学院正在全面推动e-Science的建设工作,CERN也将在下一个五年计划中加强数字化野外台站的建设工作,研究构建e-Science网络的观测数据传输技术体系、共性关键技术和实施标准,建立起试验远程操控、数据实时传输与质控,促进数据的快速传输与共享,为科研人员提供远程观测、协同工作的科研环境。

应有更多科研人员参与数据的获取

       如果大家都不去获取数据,而是坐在电脑前等着共享别人的数据,青年科技工作者和研究生等都不愿意到野外做艰苦的数据获取工作,也会对科学发展带来负面、不利的影响。“很简单,干吗花那么多力气去做实验,花三年、五年去获取数据,出文章慢了,在科技绩效评价上也没有什么好处。”欧阳竹忧心忡忡地表示。他已感到,去禹城综合试验站自己观测数据的人比过去明显少了。
 
       不去现场获取第一手数据也带来另一个问题,就是科研人员可能对他所做项目的整个科学机理和过程根本不清楚,不了解相关的背景知识,仅仅根据拿来的数据做研究,很可能得出错误的结论。

       从资料的获取,对试验过程的认识到科技成果的产生,这个过程很重要。即使是宏观问题的研究,也需要了解所做区域的实际情况,而不是简单地把数据一抄,分析一下就能下结论。

       欧阳竹说:“连研究区域实际的生态状况都不知道,所得出的科学结论肯定是靠不住的。搞地学的、搞生态的老科学家,把全国主要的生态区都跑过了,他们的工作就很扎实,对具体的生态状况很清楚,所以他们的科学结论就靠得住。生态学研究应该把共享数据的使用与脚踏实地的野外调查、试验观测密切结合起来。” 

      记者了解到,鼓励更多的研究人员,包括中国科学院以外的科研力量到台站工作,参与生态监测、数据收集,不仅对研究工作有益,也是扩展数据源的一个重要途径。这可以让更多的人把自己手头的数据拿出来共享,而且观测人员素质的提高,将有助于得到更多高质量数据,同时能够推动CERN发挥对整个科学发展所起的作用。[SplitPage]

数据共享如何可持续发展

       数据共享是共识,但对于共享,有关部门已经推动了很长时间,成效并不显著。说到共享,大家最希望共享别人的数据,而不是别人来共享自己的数据。

       科学界的评价体系通常主要在论文和成果上,各种工资待遇和名声都与此相关,而在背后观测数据的一群人却默默无闻。没有政策鼓励,他们的贡献很多人看不到,甚至被看作是低水平的劳动,被看不起。很多人使用了他们的数据甚至提都不提,使他们的工作价值无从体现,心理上也难以平衡。 

      正因为如此,如何保护好数据的知识产权也是一件令人头痛的事情。在数据共享系统发布过程中,于贵瑞特别强调了数据使用者一定要明确标注数据来源。标注的方式包括数据来源标注、通过致谢标注、合作发表论文、共同申请项目、共同享有成果等。他呼吁所有的CERN数据的用户都应该是最终用户,不希望有数据倒卖等数据使用不道德的行为。

       有专家建议说:“将来的数据,印刷也好、光盘也好,都算公开发表,这样别人引用也比较正规。如果注明出处,等于对别人成果的应用和尊重。如果有人确实用了台站的数据,又没有注明出处,应该算作成果剽窃。”

       对于数据共享怎么真正从机制和政策上进行鼓励、推进,是科学界很多人正在思考的问题。共享不能光喊口号,也不是简单的一纸命令别人就愿意拿出来,而要从根本原因上解决问题。

       欧阳竹认为,不能仅仅强调数据共享,还应该强调数据积累。这一方面是要承认生态站测数据的人的工作;另一方面,从绩效评价上、从机制上,也应该鼓励学生、科技人员到现场去,从第一手资料开始做研究。“历史数据是可以共享的,但新的数据也得产生,具体怎么来促进,这需要管理部门、研究单位和科学家共同探讨。” 

       生态学家李文华院士表示,CERN所拥有的36个台站让国际同行非常羡慕,要更好地加强数据共享,就应该做新的考核指标,共享越多,成绩也就越大。现在生态系统变化太剧烈,不光是给研究者提供数据,也要给国家决策提供生态系统变化的信息,这也对数据的整理提出了更高的要求。

       中国科学院原副院长孙鸿烈院士,一直在鼓励CERN综合中心应该与一些台站合作承担科研项目,使这些重点任务与台站工作真正结合起来,让台站真正活起来。每个台站都有自己的研究任务和工作,而综合中心的任务就是把全国构成“一盘棋”,加强联网合作研究,揭示跨学科、跨区域的科学问题,这不仅可以满足国家的需求,而且更利于带动和支持台站出成果。

       为达到这一目的,2005年,中国科学院生态系统网络观测与模拟重点实验室正式成立。该实验室目标是以CERN为依托,组织开展生态系统长期动态观测、联网实验、样带调查以及国家尺度或重点区域的专题研究。

       在我国科学界,数据互相封锁的状况尚未完全改观,观测设施、数据标准都不太统一,别人想去整理都没法整理,做不出很大的成果。 

       作为CERN重点实验室学术委员会成员,中国科学院南京土壤所副所长杨林章认为,生态系统研究网络要在全国带个头,制订一套主要类型生态系统的观测标准、方法和规范,这应该作为CERN近期工作的一个首要任务。 

       值得庆幸的是,现在一些科学评价的社会价值观正在发生变化。中国科学院二期、三期知识创新工程设立了技术支撑岗位,在政策上不再“一刀切”地把出论文作为唯一的评价指标。于贵瑞表示,目前每个CERN台站都有几个技术支撑岗位,他们可以不写论文,只要把观测做好就行了。这是一个不小的进步,对确保生态站的生态监测与数据采集工作有很大意义。 

       凝聚很多人心血的中国生态系统研究网络的数据刚刚正式对外公布,所提供的数据还有待于进一步完善、推进,而整个科学界的数据共享也期待着通过机制创新有一个新的开始。

( 摘自:《科学时报》 作者:科学时报记者 王卉)