科学家如何管理太空中的“大数据”泛滥

由NASA的Spitzer太空望远镜拍摄的银河系的中心在美国宇航局艾姆斯研究中心的25英寸像素的高分辨率23英尺(7米)高清晰度LCD科学可视化屏幕上显示。加利福尼亚州莫菲特菲尔德(Moffett Field)。图像

随着来自太空飞行任务的“大数据”不断涌入,科学家和软件工程师提出了新的策略来管理如此庞大和复杂的数据流不断增长的流量。

对于NASA及其数十项任务而言,数据每天都像涌入河流一样涌入。航天器监视从我们的家园星球到遥远星系的所有事物,并将图像和信息传回地球。所有这些数字记录都需要存储,索引和处理,以便全球的航天器工程师,科学家和人们可以使用这些数据来了解地球和更广阔的宇宙。

在加利福尼亚州帕萨迪纳市的NASA喷气推进实验室中,任务计划人员和软件工程师提出了新的战略,以管理不断增长的大型和复杂数据流,在信息技术领域中称为“大数据”。

大数据有多大?对于NASA任务,每小时收集数百TB的数据。仅1 TB就相当于在50,000棵树上打印的信息。

NASA太阳系可视化项目首席研究员JPL的埃里克·德·琼(Eric De Jong)说:“科学家将大数据用于从预测地球上的天气到监视火星上的冰盖到寻找遥远星系的所有事物,”该项目将NASA任务科学转化为可视化产品,研究人员可以使用。“我们是数据的保存者,用户是需要图像,马赛克,地图和电影来寻找模式并验证理论的天文学家和科学家。”

建立数据城堡

De Jong解释说,太空任务中的数据整理有三个方面:存储,处理和访问。对于大量数据而言,存储或存档数据的第一个任务自然更具挑战性。平方公里阵列(SKA)是南非和澳大利亚计划中的数千台望远镜的阵列,说明了这一问题。该阵列由总部位于英格兰的SKA组织牵头,计划于2016年开始建造,该阵列将在天空中扫描来自已知最早星系的无线电波。

JPL参与归档阵列的图像种子:预计每天将涌入700 TB的数据。这相当于每两天在Internet上流动的所有数据。工程师们没有建造更多的硬件,而是忙于开发创新的软件工具来更好地存储信息,例如“云计算”技术和用于提取数据的自动化程序。

JPL大数据计划的首席研究员克里斯·马特曼(Chris Mattmann)说:“我们不需要重新发明轮子。”“我们可以修改开放源代码的计算机代码,以创建更快,更便宜的解决方案。”所有人共享并免费使用的软件称为开放源代码或开放代码。JPL越来越多地将开放源代码软件引入其市场,为太空任务创建了改进的数据处理工具。然后,JPL工具重回世界,供其他人用于不同的应用程序。

马特曼说:“这对每个人都是双赢的解决方案。”

活着的色彩

归档并不是处理大数据的唯一挑战。De Jong和他的团队开发了可视化信息的新方法。例如,美国宇航局火星侦察轨道飞行器上一个摄像机的每幅图像都包含120兆像素。他的团队除了通过计算机图形和动画制作影像外,还利用这些数据集制作电影,这些影像和动画使科学家和公众能够与“红色星球”保持密切联系。

De Jong说:“数据不仅在变得越来越大,而且越来越复杂。”“我们一直在努力使创建可视化产品的过程自动化,以便科学家和工程师可以轻松地使用数据。”

数据随身携带

大数据领域的另一项重要工作是使用户可以轻松地从数据存档中获取所需信息。

帕萨迪纳加州理工学院NASA红外处理和分析中心经理史蒂夫·格鲁姆(Steve Groom)说:“如果您有一个庞大的书架,您仍然必须知道如何找到所要的书。”该中心存档了许多NASA天文任务供公众使用的数据,包括Spitzer太空望远镜,宽视场红外勘测浏览器(WISE)以及欧洲航天局的Planck任务的美国部分。

有时用户希望一次访问所有数据以查找全局模式,这是大数据存档的好处。格鲁姆说:“天文学家还可以同时浏览我们图书馆中的所有“书籍”,而这在他们自己的计算机上是无法完成的。

JPL的安德里亚·唐纳兰(Andrea Donnellan)说:“没有人能够整理出这么多数据。”他负责NASA资助的QuakeSim项目的一项类似山区任务,该项目将海地和天基海量数据集在一起,以研究地震流程。

QuakeSim的图像和图表使研究人员能够了解地震的发生方式并制定长期的预防策略。数据集包括加利福尼亚数百个地点的GPS数据,这些地点进行了数千次测量,从而产生了数百万个数据点。Donnellan和她的团队开发了软件工具来帮助用户筛选大量数据。

最终,大数据的浪潮将继续膨胀,NASA将制定新的战略来管理流量。随着新工具的发展,我们理解宇宙和世界的能力也将随之发展。

图像:NASA /艾姆斯/ JPL-Caltech

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。