

想象一下,你在徒步旅行时,遇到一只长得很奇怪的带翅膀的昆虫,几乎像鸟一样。如果你打开 iNaturalist 的 Seek 应用,并将它指向这个神秘的小虫,相机屏幕会告诉你,你看到的是一种叫做“蜂鸟透翅蛾”的昼行性飞蛾。在某种程度上,Seek 应用的运作方式与 2016 年流行的增强现实游戏《Pokémon Go》非常相似,该游戏让用户在户外寻找难以捉摸的虚构生物进行捕捉。
Seek 应用于 2018 年推出,感觉也很相似。不同的是,当用户将相机对准周围环境时,他们不会遇到妙蛙种子或巴大蝶,而是可能会遇到相机实时识别出的现实世界中的植物球和蝴蝶。用户可以了解他们遇到的动植物的种类,还可以通过找到不同的物种(如爬行动物、昆虫、鸟类、植物和蘑菇)来收集徽章。
iNaturalist 之所以(至少在大多数时候)能够正确识别不同的生物,得益于一个机器学习模型,该模型基于其最初的应用程序(该应用程序于 2008 年首次亮相,名为 iNaturalist)收集的数据。它的目标是帮助人们与周围生机勃勃的自然世界建立联系。
iNaturalist 平台拥有约 200 万用户,融合了社交网络和公民科学,人们可以在这里观察、记录、分享、讨论、深入了解大自然,并为科学和保护创建数据。除了拍照,iNaturalist 应用相比游戏化的 Seek 拥有更强大的功能。它有一个新闻板块、当地野生动物指南,组织也可以使用该平台来托管关注特定区域或特定物种的“数据收集项目”。
新用户加入 iNaturalist 时,会被要求勾选一个允许他们与科学家分享数据的复选框(尽管不勾选也可以加入)。用户同意分享的照片和位置信息会打上知识共享许可,否则将受所有权利保留许可的保护。该平台上的数据约有 70% 被归类为知识共享。iNaturalist 的联合总监 Scott Loarie 表示:“你可以将 iNaturalist 视为一个巨大的开放数据管道,流入科学界,并被科学家们以我们完全意想不到的各种方式使用。”
这意味着,每当用户记录或拍摄一种动物、植物或其他生物时,它就变成了一个 数据点,流入亚马逊网络服务云中的一个中心。它是 AWS 开放数据注册中心中 300 多个数据集之一。目前,iNaturalist 的中心存储着约 160 TB 的图像。数据收集会定期更新,任何人都可以查找和使用。iNaturalist 的数据集也是 全球生物多样性信息机构 的一部分,该机构汇集了来自世界各地的开放数据集。
iNaturalist 的 Seek 应用是组织在没有庞大、开放数据集的情况下做一些有趣且不可能的事情的一个绝佳例子。这些数据集是信息时代的科学研究的标志和驱动力,而信息时代 的定义 是广泛使用强大的计算机。它们已成为科学家观察我们周围世界的新视角,并促成了使科学对公众更易于访问的工具的创建。
[相关: 你的 Flickr 照片可以帮助科学家追踪野生动物]
iNaturalist 的机器学习模型可以帮助其用户识别约 60,000 种不同的物种。Loarie 说:“世界上有两百万个物种,我们已经用至少一个数据点和一张照片观察了大约六分之一。但要进行任何建模、综合或洞察,你[每个物种]需要大约 100 个数据点。”该团队的目标是让 200 万个物种得到表示。但这意味他们需要更多的数据和更多的用户。他们还在尝试创建新工具,以帮助他们发现异常数据、纠正错误,甚至识别新出现的入侵物种。“这与开放数据相辅相成。推广它的最好方法是尽量减少数据流动和访问数据的工具的阻力,”他补充道。
Loarie 认为,更公开地共享数据、软件代码和想法可以为科学进步创造更多机会。“我的背景是学术界。我做研究的时候,‘不发表就出局,你的数据留在你的笔记本电脑里,你希望没有人窃取你的数据或抢先你的研究’(的心态)非常普遍,”他说。“令人高兴的是,在过去的几十年里,科学研究变得多么协作化。如果你更具协作性,你可以更快、更大规模地进行科学研究。我认为期刊和机构也越来越乐于接受这一点。”
开放数据蓬勃发展
在过去十年中,开放数据——任何人都可以使用、改编和共享的数据——在科学界蓬勃发展,这得益于 日益增长的趋势,即 更开放的科学。 开放科学 意味着一个项目中所使用的任何原始数据、分析软件、算法、论文、文档都会在科学过程的早期共享。理论上,这将使研究更容易 复现。
事实上,许多 政府组织 和 城市办公室 正在向公众发布开放数据集。 2012 年的一项法律 要求纽约市通过一个可访问的门户网站共享其所有由各机构收集的、非保密的、用于城市运营的数据。纽约市在早春会举办一个 开放数据周,重点介绍数据集和使用过这些数据集的研究。技术与信息办公室的一个中央团队,以及每个机构的数据协调员,负责制定标准和最佳实践,并维护和管理开放数据计划的基础设施。但对于希望外包数据基础设施的研究人员来说,亚马逊和 CERN 等机构提供服务来帮助组织和管理数据。
[相关: 世界上十大最令人惊叹的数据库]
向开放科学的转变在最近的 COVID-19 大流行期间 大大加速,当时前所未有的大量发现被近乎瞬时地共享,用于 COVID 相关研究和设备设计。科学家们迅速公布了病毒的基因信息,这有助于疫苗的开发工作。
科学史学家兼麻省理工学院博物馆馆长 John Durant 表示:“如果进行测序的人们一直保守秘密,那么整个过程就会减慢。”
他补充说:“转向开放数据部分是为了确保透明度和可靠性。如果报告的结果来自一个你看不到的数据集、一个你无法解释的算法流程,或一个你不理解的统计分析,你怎么能确信结果是可靠的呢?那么很难对结果有信心。”
数据集的增长带来了机遇和担忧
没有大量的数据,开放数据就不可能存在。在辉煌的 大数据时代,这是一个机遇。Durant 说:“在我早年学习生物学的时候,你使用的是传统技术,你获得的信息量——它们很重要,但它们很小。但今天,你可以产生令人目不暇接的信息。”在过去的几十年里,由于更好的计算机、更智能的软件以及 更便宜的传感器,我们收集和积累数据能力呈指数级增长。
Durant 说:“一个庞大的数据集几乎就像一个宇宙。它拥有无限的内部数学特征和相关性,你可以一直在其中‘钓鱼’,直到找到看起来有趣的东西。”将数据集向公众开放意味着不同的研究人员可以从不同的角度得出 各种见解,这些见解可能与数据的原始意图有所不同。
他补充说:“在过去的几年里,涌现出了各种各样的新学科或子学科,它们源于数据角色的变化。”数据科学家和生物信息学家只是众多例子中的两个。现在存在一些“元科学”的科学分支,人们不实际收集数据,而是深入研究多个数据集,寻找更高级别的概括。
许多传统领域也经历了技术革新。以环境科学为例。Loarie 说,如果你想覆盖更大的范围、更多的物种、更长的时间,那么“一个人在没有技术工具或协作工具的情况下是无法管理的”。“这无疑将生态学领域推向了技术领域。我相信每个领域都有类似的故事。”
但随着数据量的不断增加,我们手动处理这些数字和统计数据的能力几乎变得不可能。“你只能使用非常先进的计算技术来处理这些数量的数据。这是我们当今科学世界的一部分,”Durant 补充道。
这就是机器学习算法发挥作用的地方。它们是软件或计算机命令,可以计算数据中的统计关系。使用有限数据的简单算法仍然相当全面。如果计算机出错,你可以追溯到错误发生的计算环节。如果它们是开源的,那么其他科学家就可以查看代码说明,了解计算机如何从输入中获得输出。但大多数时候,人工智能算法被描述为“黑箱”,这意味着创建它们的研究人员甚至不完全理解内部发生了什么,以及机器是如何做出决定的。这可能导致有害的偏见。
这是该领域面临的核心挑战之一。Durant 说:“算法偏见是我们使用我们尚未完全控制、或者不完全了解其影响力的大数据系统时代的产品。”这就是 公开数据和代码的好处。
[相关:人工智能无处不在。这份报告展示了我们是如何走到这一步的。]
研究人员必须考虑的另一个问题是维护大型数据集的质量,这会影响 分析工具的有效性。这时同行评审过程就起到了重要作用。Loarie 观察到,数据和计算机科学领域在发布和将研究成果发布到互联网上的速度非常快,无论是通过预印本、电子会议论文还是其他形式。“我确实认为,电子化科学面临的一个挑战是如何扩大同行评审的规模,”他认为,同行评审可以防止错误信息。“例如,这种同行评审对于 iNaturalist 的数据处理也非常重要。Loarie 指出,虽然 iNaturalist 作为一个整体的数据质量非常高,但仍然有一小部分错误信息需要通过社区管理来核查。”
最后,开放的科学会引发一整套关于资金和激励机制如何变化的疑问——这是一个专家们一直在 积极探索 的问题。存储大量数据肯定不是免费的。
Loarie 说:“人们不常想到的是,对我们来说几乎更重要的是,在互联网上传输数据需要支付带宽费用。因此,如果有人想从 iNaturalist 的开放数据存储桶中下载一百万张照片并进行分析,仅仅下载这些数据就会产生费用。”
开放数据的未来
iNaturalist 是一个小型非营利组织,隶属于加州科学院和国家地理学会。亚马逊正在提供帮助。AWS 全球社会影响部门的全球负责人 Maggie Carter 在一封电子邮件中表示,AWS 开放数据赞助计划(AWS Open Data Sponsorship Program)于 2009 年启动,负责支付他们认为“对用户社区具有高价值”的数据集的存储和带宽费用。他们还提供访问数据所需的计算机代码,并在数据集更新时发送通知。目前,该计划赞助了约 300 个数据集,涵盖范围从雨林和鲸鱼的音频录音到卫星图像、DNA 序列和美国人口普查数据。
在大型数据中心因其能源消耗而受到 严格审查 的当下,亚马逊认为,与该计划中的每个人都拥有自己的本地存储基础设施相比,集中的开放数据中心更节能。“我们看到了开放数据模型的内在效率。AWS 开放数据计划的全部前提是存储一次数据,然后让每个人都在这个权威数据集上进行工作。这意味着需要存储的重复数据更少,”Carter 说,她声称这可以降低整体碳足迹。此外,AWS 计划在 2025 年前实现 100% 使用可再生能源运营。
尽管面临挑战,Loarie 认为有用的、可应用的数据应该尽可能共享。许多其他科学家也赞同这一观点。康奈尔大学的另一个平台 ebird 也利用公民科学努力来积累 供科学界使用的开放数据——ebird 数据也转化为用户工具,例如旨在让与自然界的野生动物互动更轻松、更具吸引力的 鸟鸣识别。除了公民科学,一些研究人员,例如那些致力于建立 全球水下生物声音图书馆 的研究人员,正在寻求将多家机构和研究小组收集的专业数据汇集到一个庞大的开放数据集中。
Loarie 说:“很多人保留数据,保留专有算法,因为他们认为这是获得收入和认可的关键,这将有助于他们的项目可持续发展。我认为所有参与开放数据领域的人,我们都在进行一次信任的飞跃,相信它的优势大于成本。”