-
美国政府停摆打击中国生命科学 中国需自主“国家生物信息学中心”
关键字: 美国政府关门美国政府停摆中国生命科学美国政府停摆打击中国生命科学国家生物信息学中心太仓生命信息研究所朱伟民中国基础研究10月,美国政府关门两周,医药学及生命科学从业者依赖度甚高的NCBI(美国国立生物技术信息中心)网站,也随着美国联邦政府停摆而暂停更新数据,这对严重依赖国外数据资源的中国生命科学研究产生极大的影响。而建立中国自己的生物信息中心,成了中国迫切需要解决的问题。作为世界上产生数据数量最大的国家,中国不得不把自己的数据送往国外的数据库,针对这一现状,太仓生命信息研究所执行所长朱伟民教授也通过访谈提出了自己的见解。
NCBI是由美国参议员Claude Pepper于上世纪80年代后期发起成立。30多年来,它负责收集、存储、注释关于分子生物学、生物化学、遗传学等方面的数据信息,通过开发大量的软件和数据库为国际生命科学的研究提供数据的搜索、浏览、分析和下载服务。这些服务已成为国际生命科学研究重要的生物信息学基础。
美国NCBI是世界三大生物信息学中心之一
NCBI暂停更新对中国研究者的影响更甚,由于中国尚未有自主的国家级生物信息学中心(简称:国家中心),中国生命科学研究人员高度依赖NCBI的服务。如果因为政治、经费或其他原因,这些生物信息资源对中国研究者真正关闭,必将会对中国生命科学的研究产生极大的影响。“虽然此次NCBI服务有限停摆对中国科学研究总体影响有限,但是确实已经减缓了有些重要项目的进度。”中国医学科学院生物医学大数据研究中心主任、太仓生命信息研究所常务副所长朱伟民教授告诉我们说。“更重要的是,这次停摆给我们敲了一个警钟:我们所依赖的国外资源并不是没有被中断的可能”。中国在没有自主的数据积累,与管理、服务经验的情况下,“断奶“的后果将是无法想象的”。
随着高通量技术的发展,生命科学、生物医药的研究已经全面进入了大数据时代,生物信息学已成为破译大数据必不可少的工具。现今,中国仍然没有自己的生物信息中心,许多生物数据处于“出口转内销”的模式,科研数据不得不提交到国外数据库,需要数据时又不得不从国外数据库下载。然而,由于网络的瓶颈,这些大数据的下载给科研人员带来了诸多烦恼。作为一个数据产生大国,中国仍然被看作为是国际公共生物数据的免费用户,她对国际生物信息资源的共享的贡献没有得到充分的肯定。这导致中国在国际生物信息资源上几无话语权,并造成各种负面影响的情况。要改变这种状况,国家中心的建立已迫在眉睫。
国内科研精英意识到国家中心的重要性与迫切性,为它的建设作出了近十年的努力。最近,强伯勤、赵国屏、陈润生等9位院士向中国科学院院士局建议立项,对成立国家生物信息学中心做一个全面的调研。此调研项目有12个国内优势单位参加,涵盖生命科学、生物医药、计算科学、生物信息等领域。项目调研工作已经全面展开,预计在2013年底或2014年初写出国家生物信息学中心建设的建议书,递交给国家作为决策的依据。
bioso!国内首个生命科学领域的跨数据级搜索引擎诞生
作为积极参与此调研项目的单位之一,太仓生命信息研究所(TILSI)在过去的两年里,开展了国际重要数据资源的“本地化”工作,并建设大数据整合平台,为中国科学家提供了“本地化”的生物医学数据服务,为建设国家中心,积累了宝贵的经验。目前它的大数据整合平台已整合11个数据库,涵盖6种数据类型——基因组、核酸、蛋白质、结构、分子间相互作用以及疾病。由于平台数据库,除Refseq参考序列数据库以外,主要来源于另外一个国际生物数据中心欧洲生物信息研究所(EBI),因此NCBI暂停数据更新对TILSI的平台服务影响较小。
国内首个生命科学领域的跨数据级搜索引擎bioso!
为了帮助用户在海量的生物医学大数据找到有用的数据,TILSI还自主开发了国内首个生命科学领域的跨数据级搜索引擎bioso!。作为大数据整合平台的入口,bioso!为用户提供了友好的跨数据库的“一站式”检索与“百科全书”式的展示。百科全书分为五个章节,已对外开放三个章节-基因与基因组、基因型与表现型,相互作用与网络;剩余两个章节处于准备阶段。
“我们的现有工作还仍然局限于对国外公共资源的搜集与整合,这仅仅是我们的前期工作”,太仓生命信息研究所执行所长朱伟民教授向我们介绍说,“我们下一步的工作重点是在继续丰富公共数据积累,并建设中国特色数据库的同时,推进加入国际重要数据库联盟进程,使得我们‘本地’数据库接受数据提交,成为具有真正涵义的中国‘自主’数据库。只有这样,才会结束我们对国外数据资源严重依赖的中断诚惶诚恐的状况。”朱伟民教授接着解释:“我这里所说的‘我们’是广义的,是指所有为中国生物信息学事业呼吁与奋斗了多年的前辈,各优势单位与科学家。”他最后呼吁:“国家中心的成立是‘我们’得以紧密合作、加速进程,完成使命的根更本保障。”
朱伟民谈中国生物信息学中心现状
“中国不得不把数据送到中国以外的数据库中”生物探索:朱教授,我们了解您在国外从事生物信息学的工作,那国际上生物信息学中心的现状是?面临哪些挑战?
朱伟民:国际上三大生物信息学中心为:美国NCBI、英国EBI、日本DDBJ。其中DDBJ规模小,涵盖的数据类型少。这三个组织互相共享和交换数据,但也面临诸多无法解决的问题。第一是海量的数据管理问题。生物界的数据量呈指数级增长,随着科学发展,如今日趋庞大。另外,数据类型日趋复杂。如何管理这些大量的复杂的数据,是生物信息学中心面对的一个巨大挑战。例如我现在有海量的基因组数据,我如何管理?原始数据数量庞大,我不能全部保持,那么我应该保持哪些最低限度的数据?这些都是难题。第二是数据整合问题。第三是数据挖掘问题。第四是数据可视化问题。数据类型很复杂,要将它们很直观地呈现给用户,很困难。第五是用户的使用经验问题,除此之外还存在着网络上的问题。
2011年,朱伟民在太仓生物信息研究所揭幕时发言
生物探索:中国生物信息学中心的现状如何,为何会选择回国建立TILSI这样的生物信息中心平台?
朱伟民:中国已经成为或者在某一些数据类型上即将成为世界上产生数据数量最大的国家。四年前我在华盛顿开会,在会上获知,NCBI获取数据量最多、数据量最大,其中中国提交的数据量最多,超过了美国。现在中国在核酸这一数据类型上,已经成为世界上数据量最多的国家,其他数据类型的数量也即将成为世界上最多的。但是中国不得不把数据送到中国以外的数据库中,包括国际三大数据库。这是国际上制定的标准。此外,中国一定要接受国际上定的标准。
中国面临的问题是:第一,中国数据送往国际生物信息学中心之后,不能体现其来源。第二,中国数据送过去之后,在包装、体现、公布方面,中国不能在世界上产生影响。第三,中国科学家对数据的要求,在国际上处于完全隔离、忽略的状态。究其原因,是因为中国目前没有生物信息学中心,没有一个非常强的声音,能够代表中国参与国际上标准的制定,参与国际上的活动。如果这种现状不改变,这种情况将会持续。正因为中国生物界没有统一的生命信息数据中心,不能为中国科学家提供良好的服务。中国的科学家做实验或者研究时,只能到NCBI或者EBI拿取数据,但由于网络网速的限制,此过程并不总是一帆风顺。我们不能展示中国的研究对世界的贡献,更重要的是,中国永远不可能到世界上参与竞争,尽管中国已输出大量数据。这是不公平的。简单一句话总结,中国需要一个生物信息学中心,中国需要一个统一的高质量的世界水平的生命信息数据中心。这个生命信息数据中心,能够给中国的科学家提供优质的服务,能够站在世界舞台上,积极地参与国际竞争。TILSI生物信息基础平台的建设将为建立中国自主的高水平的生物信息中心奠定基础。
生物探索: 除了建立生物信息中心外,TILSI自主研发了Bioso!搜索引擎,它的亮点有哪些?用户是免费使用吗?
朱伟民:Bioso!最大的亮点在于“整合”, 我们的 summary page是数据、工具与文献资源的整合,是针对相关搜索条目的百科全书。它整合了多个数据来源,以分页的方式来展示被搜索条目多维的生物医学特性。Bioso!不仅具有高级搜索的功能,在检索结果页面还添加了“filter”,方便用户进行精确查询。
Bioso!背后的综合性服务平台整合了数据,工具和文献资源。此次上线,该平台收集了使用最为广泛的4种数据类型,6个数据库——基因组(Ensembl & Ensembl Genomes),核酸(EMBL-Bank & EMBL-CDS),蛋白质(Uniprot & InterPro),相互作用(IntAct);与2个分析工具——Blast & AmiGo。接下来会有更多的生物信息资源逐步整合到该平台,计划明年年底有几十个数据库整合到该平台。生物信息平台的资源完全免费,用户无需注册即可使用。
生物探索:像TILSI这样的生物信息中心建立以及Bioso!搜索引擎的开发,对中国的生命科学领域发展会有哪些促进作用?
朱伟民:TILSI这生物信息中心的建立以及Bioso!搜索引擎的开发,它宣告了中国自主研制的搜索引擎在生命科学领域的诞生,同时也显示了TILSI服务于科学的承诺与我们对生物信息学平台建设工程化的追求。这是TILSI的第一个重要里程碑,为实现我们长远的目标走出了第一步。
对于中国的生命科学领域的发展我觉得有几个方面的作用:首先,它为生命科学研究提供支持和引导。研究人员可以在海量的数据库找到想要的东西,并且在搜索的同时有新的发现。其次,它为中国生物信息学资源的获取,管理,整合以及知识挖掘提供了一个综合的平台,为支持国家重大科学项目海量数据的分析与注释提供了一个技术框架。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:隆洋
-
“这是对西方的警告”,欧洲听到了 评论 29逮不逮捕?美西方“裂”得更严重了 评论 165不藏了?美防长自曝有“仁爱礁特遣队” 评论 243普京回应:是新型中程高超音速导弹 评论 287“中国在量子领域专利数第一,中美未来竞争更激烈” 评论 126最新闻 Hot