1846年10月6日,战俘弗里德里希·阿道夫·维斯利泽努斯冒险进入崎岖的山丘,前往隐蔽的墨西哥小镇库西乌里亚奇附近采集一些植物。在美墨战争爆发时,他和他的西部考察队被俘,但这位以圣路易斯为基地的医生兼博物学家决定在被囚期间继续他的研究。他拔起了一朵猩红色的野花,后来被命名为*Heuchera sanguinea*,然后徒步返回村庄。
他将这株细瘦的植物摆好,以便一旦干燥并装裱在纸上,它的叶子的两面都能被未来的植物学家看到,然后他将它压在报纸之间。1847年春天获释后,他将这株干燥的植物和许多其他植物带回圣路易斯,送给了他的朋友兼同事乔治·恩格尔曼医生。而这块清晰、锈红色的标本至今仍保存在那里——它是植物学历史的一部分,也是重要的数据,是密苏里植物园存放的近630万份标本中的一份,这些标本被存放在成林的兵马俑文件夹中。
点击启动图库
“生物多样性科学并不常被视为数据密集型,或大数据。但我们拥有的是所有其他科学的基础数据,”密苏里植物园生物多样性信息学中心主任克里斯·弗里兰德说。“这些小小的植物,这些信息碎片,是我们所拥有的关于地球生命的知识生态系统的一部分,我们需要了解关于它们的一切。”
为了与世界分享他们的标本,一个由档案管理员和植物学家组成的团队正一丝不苟地为每一份标本拍照,并将它们上传到网上供任何人查阅。
密苏里植物园是世界上最大的植物数据储存库之一,这些数据以多种形式存在。它拥有珍贵的初版书籍,包括可以追溯到古腾堡时代的药用植物手册;成千上万的活体植物,在圣路易斯市中心占地79英亩的公共花园中生长;以及超过600万份干燥的标本——这是“看不见的园林”——用于研究全球植物形态、分布和用途。除了维斯利泽努斯及其同仁收集的样本外,该园还收藏了查尔斯·达尔文、詹姆斯·库克以及几乎所有追随刘易斯和克拉克西行脚步的博物学家获得的藏品。弗里兰德表示,所有这些数据,从书籍到扫描图像再到标本标签,将在几年内全部上线。该园甚至还在开发API工具,以便其他人可以编写应用程序来挖掘所有这些数据。
吉姆·所罗门是密苏里植物园植物标本馆的馆长,植物标本馆是永久保存植物部分集合的名称。他办公室的每一个表面都挤满了12×16英寸的兵马俑文件夹,每个文件夹里都装着像*H. sanguinea*这样的标本——有些用红线系在一起,有些则敞开着,露出几片植物的残片。他说,这些堆积如山的标本只是密苏里植物园整体收藏的一小部分。他估计,在全球37个植物标本馆中,大约有4亿个这样的文件夹。“在过去几个世纪里地球上所有个体植物的总数中,这可以说是微不足道,”他说。“然而,这却是我们了解地球上植物的所有知识的主要来源。”
在走廊尽头是植物标本馆存储的一部分,它看起来就像任何大学图书馆一样,有着一排排可移动的书架。所罗门转动着存放*Clusiaceae*科植物的书架轮子,伸手去拿一个装着*Garcinia*属植物的文件夹。他拿出一张卡片,上面覆盖着4英寸长的革质叶子、有节的根和一簇小圆果——这并不是你期望从文件袋里拿出的东西,也不是你通常会与大数据联系起来的物品。
几十年来,希望挖掘这些数据的植物学家不得不联系密苏里植物园或其他植物标本馆,并要求邮寄样本。植物数据挖掘通常是为了分类学研究——比如,马达加斯加的一位植物学家发现了一种有趣的植物,它有直立的茎、二态的叶子和绿色的花粉,想知道它是否是一个独立的物种,或者可能是一个新的杂交品种。简单的形态学——植物的外观——仍然是这样做的方式。为了帮助这项研究,密苏里植物园的档案管理员每年会寄出约10万份样本,包括借出、赠送和新入藏的标本。但所有这些处理都会损坏标本,而且对于那些拥有最大生物多样性区域的发展中国家的植物学家来说,寄送和接收这类邮件非常困难。这是密苏里植物园对其拥有的每份标本进行编目和数字化的一部分动机。
到目前为止,该团队已经处理了390万份样本,并扫描了约169,000张图片。这本身就是一项特殊的挑战,因为正如*Garcinia*属的样本所清楚表明的那样,并非所有植物都方便地是扁平的。“你有椰子、巨型龙舌兰等大件笨重的东西,所以确实需要一些专门的设备,”弗里兰德说。密苏里植物园正与英国皇家植物园合作,制造新的成像设备,以超高分辨率扫描样本,使植物学家能够进行缩放和平移,并看到细节。
为了不让这些收藏品显得陈旧过时,请注意,现代植物数据也以系统发育材料的形式出现。尽管绝大多数分类学工作仍然基于形态学,但密苏里植物园确实有一个DNA库,包含约11,000份专门为DNA提取目的保存的样本。植物学家收集叶片样本,用硅胶保存,并将它们储存在-20ºC,这样获得的DNA质量可能比植物标本馆的材料更好。所罗门说,过去的收藏品不会以这种方式进行测试,因为DNA提取过程需要破坏太多的材料。
这项工作涉及密苏里植物园的几个不同项目,将帮助其他国家的植物学家研究本地植物,并帮助自然历史学家了解过去四个世纪植物的用途和分布。
例如,该园是参与《生命百科全书》项目的六个机构之一,该项目将编目地球上所有物种的数据,并将其在线提供,作为研究世界生物多样性的单一接入点。弗里兰德自称为开放获取的传教士,鼓励其他植物标本馆和博物馆尽可能公开地分享他们的收藏。最终,他希望研究人员能够利用它来绘制生命之网中的新联系。
“我们想要记录的就是那个‘啊哈’时刻,我坚信它们就在其中。这就是大数据挑战。传统上,这是一个以人为中心的领域,人们外出采集植物,现在我们正用算法来解决这个问题,”弗里兰德说。“数据越多,你的科学就越全面。”