在媒体中检测酒精暴露:评估CLIP的零样本学习与ABIDLA2深度学习在图像分析中的能力
Assessing the capabilities of zero-shot learning with CLIP and ABIDLA2 deep learning in detecting alcohol exposure in media A study on image analysis
酒精是一种普遍的健康问题,占全球疾病负担的5.1%,对个人和经济造成了重大负面影响。从社交媒体到电影、广告和流行音乐,酒精暴露随处可见。研究人员提出酒精相关社交媒体帖子暴露与年轻成年人的酒精使用之间存在联系。研究人员正在探索创新方法来衡量和分析酒精暴露。监督式深度学习模型,如酒精饮料识别深度学习算法(ABIDLA),在从图像中识别酒精饮料方面显示出潜力,但需要大量手动注释的数据进行训练。
一种替代方法是利用对比语言图像预训练(CLIP)模型的零样本学习(ZSL)。研究人员已经研究了ZSL模型与专门针对图像中酒精饮料进行训练的深度学习算法(ABIDLA2)的性能。研究学者在ABIDLA2论文中使用的测试数据集ABD22包含八个饮料类别,每个类别的测试集有1762个样本,以保持评估的均匀分布。评估包括三个任务,计算并比较ABIDLA2和ZSL的性能指标,如无权重平均召回率(UAR)、F1得分和每类召回率,对于命名和描述性短语。
研究人员发现,ZSL在某些任务中表现良好,但在细粒度分类方面需要帮助。ABIDLA2模型在识别特定饮料类别方面优于ZSL。然而,使用描述性短语(例如,“这是一张人拿着啤酒瓶的图片”)的ZSL在将特定饮料分类为更广泛的饮料类别(啤酒、葡萄酒、烈酒和其他,即任务2)方面几乎与ABIDLA2表现相当,并且在判断图片是否包含酒精含量方面超过了ABIDLA2。
- 这篇人工智能论文介绍了稳定签名:一种结合图像水印和潜在扩散模型的主动策略
- 挑战者旨在取代OpenAI的LLM霸主地位:XLSTM
- 来自伦敦帝国理工学院和DeepMind的研究人员设计了一个人工智能框架,将语言作为强化学习智能体的核心推理工具
他们发现短语工程对于ZSL实现更高性能至关重要,特别是对于“其他”类别。
这项工作的一个关键优势是ZSL所需的额外训练数据和计算资源较少,与监督学习算法相比,对计算机科学专业知识的需求也较少。它可以准确地解决诸如在图像中识别酒精含量的研究问题,尤其是在需要进行二分类时。研究结果鼓励未来的工作比较监督学习模型与ZSL在包含不同人群和文化的实际数据集上的泛化能力。