科学大数据管理系统
——“唤醒”科研数据 服务科技创新
2016年10月20日 来源: 新华科技
10月18日,国家重点研发计划“云计算和大数据”重点专项科学大数据管理系统项目启动会在中国科学院计算机网络信息中心举行。来自科技部、中科院、国家天文台、清华大学、北京大学、人民大学、中科院计算机网络信息中心等20多家单位的40多位科研人员参加会议。
科学大数据管理系统项目的启动,标志着我国在科学大数据领域的科技研发工作进入正式实施阶段。郭华东院士在科学大数据管理系统项目启动会上指出,科学大数据的意义表现在两个方面,一是改变传统方法论,二是寻求科学新发现,希望项目能为广大科学家提供一套高效、实用的科学大数据管理平台,最终提升我国科学大数据驱动的科学发现能力。
事实上,随着我国大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等大科学装置的迅速发展,科学数据以史无前例的速度急剧增长,科学研究快速进入了一个前所未有的科学大数据时代。
科学大数据促进科研发现的案例已数不胜数。在河北兴隆,天文学家已经可以在这里使用世界上口径最大的大视场光学望远镜LAMOST巡天,获取在世界上遥遥领先的光谱数据,从2011年9月到2015年6月,经过3年巡天,LAMOST共观测了2669个天区,已对外释放了约570万条光谱数据,其中成功获取高质量恒星光谱462万个,比世界上所有已知光谱巡天项目获取的数据总数还要多。这些别国没有的数据,让我国科研占据了学术高地。
目前,我国暗物质卫星“悟空”、射电望远镜“FAST”、量子卫星“墨子号”等大科学装置先后投入使用,每日产生PB级科学数据需要分析与处理,由于缺少有效的科研数据管理能力,原有的对数据的简单存储、分析与处理等方法手段已远远不能满足当下科学研究对科学大数据的要求。有科学家形象的比喻这个过程,从无米下锅到有米下锅,但是如如何烹饪出一道“数据美食”乃至进行“菜品创新”还需要一个好的“厨房”。
面对科学研究对科学大数据管理提出的众多问题与挑战,为满足科学家高效的管理与便捷的使用科学大数据需求,科学大数据管理系统因时而生。科学大数据管理系统将在技术上、系统上对大数据时代的科学研究形成有力支撑,大大加速我国科研上重大科学发现的进程。
以天文空间领域为例,空间站光学巡天将通过对数十亿恒星与星系海量数据的统计研究,精确地测量宇宙学参数、暗能量状态方程,检验宇宙学模型、引力理论,揭示恒星、黑洞、星系等天体的形成与演化的规律,科学大数据管理系统关注巡天观测数据转化为科学产出的关键环节,将为其科学目标的实现提供不可或缺的数据分析支持,为这些天文学与物理学前沿领域的重大突破提供线索,并期望革命性的新发现。
科学大数据管理系统将是一个从无到有、从小到大、从数据累积到让数据促进科研创新的过程。科学大数据管理系统将实现对1000亿行关系数据、100亿条边图数据、EB级非结构化数据的高效管理,形成众多运维调优工具,发表学术论文近百篇,并培养众多科研人才。科学大数据管理系统同时提倡“我参与、我贡献”的原则,鼓励并吸引广大科研工作者参与系统研发全过程,最终形成成果开放、共享的开源社区,为科技界服务。
作为科学大数据管理系统项目的牵头单位,中科院计算机网络信息中心长期承担中科院信息化工作,拥有三十多年的数据库管理经验,构建了遍布全国的科研信息化基础设施,形成先进的科技云环境,具备千万亿次计算能力和数百PB的存储能力,研发了VDB、科学数据云等一系列大规模数据管理工具与平台。同时,中科院计算机网络信息中心拥有一批专业科学数据人才,为项目开展提供有力的支撑保障。
大数据时代科学研究是一个大科学、大需求、大数据、大计算、大发现的过程。当今的世界,科技竞争日趋激烈。没有先进的数据管理与分析平台,就没有一流的科学发现,已经成为科研领域的共识。科学大数据管理系统将为整个科研过程保驾护航,成为大数据时代科技创新的“使能利器”。未来,科学大数据管理系统将创新治理结构,构建开放协同的大数据科研创新平台,营造良好科研创新生态,孕育充满活力的科研创新主体,成为我国引领性的科研创新增长极。