如果机器人起义真的发生,机器人们可能会在它们的“申诉清单”中添加新的条目。一个国际研究团队开发了一种机器学习算法,来完成没有行星科学家能够做到或愿意做的一项任务。
在将月球表面分解成数十亿像素并 painstaking 地学习这些灰色点之间的关系后,新的算法汇集了研究人员称之为迄今为止最全面的月球撞击坑数据库——列出了超过10万个月球上的凹坑。这个坚毅的软件甚至能够确定近2万个这些弹坑的年龄,它们是太阳系这个角落数十亿年历史的无瑕记录。
“我们在月球上看到的东西与我们地球上的情况相似,但我们有侵蚀,”以及地球上的风和天气,意大利特伦托大学电信学教授、参与该项目的 Lorenzo Bruzzone 说。“在月球上,一切都像当初一样。”
以往的撞击坑目录的编制很大程度上是手动完成的。这意味着行星科学家们需要逐帧仔细观察单调的灰度景观,计算撞击坑的数量,并根据它们的形状、暴露出的地下层以及(在幸运的情况下)阿波罗宇航员带回的岩石上的日期来确定它们的年龄。Bruzzone 和他的同事们从一个黄金标准数据库的一个子集开始——这是国际天文学联合会(IAU)在过去一个世纪里编制的约9,000个撞击坑(其中约1,700个已测年)的列表。
然后,他们教会了一台机器来代替他们完成这项工作。但机器学习有点像一种“暗黑魔法”,甚至连计算机科学家也不完全理解哪种算法最适合特定的任务(例如撞击坑计数)。简而言之,找到这个捷径并不容易。
该团队选择了一种称为卷积神经网络的程序类型,这是一种利用试错法来学习已标记图像(“这是撞击坑”)并自动学习物体最可识别特征的技术,然后可以利用这些特征来标记图像(“撞击坑”或“不是撞击坑”)。但是,卷积神经网络有很多种设置方法,该团队尝试了许多不同的配置,每种配置都需要在超级计算机上花费数天时间进行处理。
一旦他们找到了一个能够学习什么是撞击坑并能在IAU列表中识别其他已知撞击坑的神经网络结构,他们就让它开始处理来自中国嫦娥一号(CE-1)和嫦娥二号(CE-2)轨道器拍摄的最清晰的月球表面照片——CE-1 图像可以分辨出小至150米的事物,而 CE-2 照片则能达到7米,因此该团队实际上设置了两个相关的神经网络。一个识别 CE-1 图像中的较大撞击坑,然后“教会”第二个网络在 CE-2 图像中寻找更小的撞击坑。为了做到这一点,它使用了一种称为迁移学习的技术,Bruzzone 将其比作导师训练继任者。
“我有经验,然后我教给别人,”他说。“而且,“他们可能会改进结果,因为他们有更新的信息。”
最终,这两个网络梳理了覆盖月球近乎全部表面的图像,识别出了约117,000个撞击坑,大小从1公里深的凹坑到500公里的火山口不等。作者说,新数据库中的撞击坑数量是其他数据库的15倍。他们于周一在 Nature Communications 上发表了他们的研究成果。
这些程序有足够信心为其中近2万个特征分配年龄——当处理撞击坑重叠的撞击坑时,这是一项艰巨的任务。为了确保这些网络没有“眼花缭乱”地编造撞击坑和数字,该团队将他们的撞击坑与不同的现有数据库进行了比对,甚至安排了多个行星科学家团队以老式方法(耗时数月)来测定几千个新识别出的撞击坑的年龄。在各种测量中,机器的结果准确率在85%到95%之间。
Bruzzone 指出,这并不完美,但人类也并非完美,更不用说数百个有着自身不完美之处的人类联合起来的努力了。他预计,在以统一、有据可查的方式编制的庞大月球数据库中,行星科学家将能够以前所未有的细节解读月球的历史。
“如果你的分析是基于有限数量的撞击坑,你就无法获得全貌,”他说。“下一步是开始分析,去理解所有新识别出的撞击坑的意义。”
他认为大数据(例如这个项目,算法处理了200GB的图像)是行星科学领域一个强大且新兴的工具。现在该团队已经弄清楚如何设置合适的神经网络,他们希望对其他有清晰图像的研究过世界(如谷神星或火星)做类似的事情。Bruzzone 推测,他们甚至可能能够利用月球网络来训练其他网络。“我们肯定需要一些调整,”他说,“但我们可能不必从头开始。”
希望机器能够继续耐心合作。