‘岩石与人工智能的碰撞:矿物学与零样本计算机视觉的交叉点’

Intersection of Rock and Artificial Intelligence Mineralogy and Zero-shot Computer Vision

矿物是一种天然的、无机的物质,具有明确的化学组成和晶体结构。它们是岩石的构成要素,对各种地质和工业过程起着至关重要的作用。识别和分类矿物是一个非常复杂的过程,需要高技能的专业知识。为了完成这项任务,地质学家需要花费数小时甚至数天的时间进行样品准备和各种类型的分析。

增加复杂性的是,仍有相当一部分矿物需要更深入的研究,目前已经确认的6000种矿物中,只有几百种得到了全面研究。

因此,全球范围内正在进行大规模的努力,通过深入研究来填补这一空白。将机器智能引入这个过程可以在找出错误和简化传统由专家处理的耗时例行任务方面发挥关键作用。利用机器智能进行视觉诊断有潜力解放专业矿物学家的例行任务,使他们能够将时间专注于更复杂的挑战。

因此,人工智能研究所与Sber AI和莫斯科国立大学洛蒙诺索夫人工智能研究所合作,为计算机视觉模型创建了一个基准矿物识别数据集,名为MineralImage5k。他们使用了费尔斯曼矿物学博物馆的数据集。该博物馆拥有超过17万个样本(约5000种矿物物种),是全球最大的矿物收藏之一。

该数据集包含原始样本,更接近于山区或河床中发现的矿物,并分为三个子集,挑战研究人员在矿物分类、分割和尺寸估计方面的能力。在收集数据集后,研究人员进行了图像分析并清理了该数据集。首先,他们删除了损坏的图像,然后删除了具有高纵横比的图像,因为大多数计算机视觉模型使用方形输入。此外,如果图像边缘之间的差异过大,他们还为图像添加了填充。他们还删除了重复的图像,因为重复的图像会增加内存消耗。最后,他们将剩余的图像调整为1024像素。

然而,AI在查看矿物图片时可能会遇到困难,因为它可能需要知道岩石的哪一部分是我们想要的矿物。为了帮助解决这个问题,研究人员提供了大约100张额外的带有标签的图像,准确显示矿物的位置。他们使用了一种从图片和文字中学习的模型来展示他们的测试效果如何。他们在教授MineralImage5k图片后检查了它的工作情况。

研究人员强调,他们希望将来能获得更多用于测试的图片。他们还专注于其他研究,制作不同的图片集,包含更多的矿物和岩石。他们还可以使用其他类型的信息来使AI变得更加优秀。最后,矿物专家、计算机视觉专家和AI专家必须共同努力改进矿物识别。