旧金山大学2023年与AWS和Amazon SageMaker Studio Lab合作举办的数据科学会议Datathon

SFU 2023 Data Science Datathon in collaboration with AWS and Amazon SageMaker Studio Lab

作为2023年数据科学会议(DSCO 23)的一部分,AWS与旧金山大学(USF)的数据研究所合作举办了一场数据马拉松。参与者包括高中和大学生,他们在一个关注空气质量和可持续发展的数据科学项目上展开了竞争。旧金山大学的数据研究所旨在支持数据科学领域的跨学科研究和教育。数据研究所和数据科学会议提供了前沿学术研究与旧金山湾区科技产业创业文化的独特融合。

学生们使用了Amazon SageMaker Studio Lab,这是一个免费的平台,提供了一个带有计算(CPU和GPU)和存储(最多15GB)的JupyterLab环境。由于大多数学生对机器学习(ML)不熟悉,他们接受了一个简短的教程,介绍如何设置ML流程:如何进行探索性数据分析、特征工程、模型构建和模型评估,以及如何设置推断和监控。教程使用了来自美国国家海洋和大气管理局(NOAA)和OpenAQ的Amazon可持续性数据计划(ASDI)数据集,通过二分类AutoGluon模型使用天气数据构建了一个预测空气质量水平的ML模型。接下来,学生们被放开,可以在自己的团队中开展自己的项目。由Peter Ma、Ben Welner和Ei Coltin领导的优胜团队在旧金山大学数据科学会议的开幕式上获得了奖品。

活动反馈

“这是一个有趣的活动,也是与他人合作的好方式。我在课堂上学了一些Python编程知识,但这次活动帮助我将其应用到实际中。在数据马拉松期间,我和我的团队成员对不同的ML模型(LightGBM、逻辑回归、SVM模型、随机森林分类器等)以及它们在NOAA的AQI数据集上的性能进行了研究,该数据集旨在检测特定气象条件下大气的毒性。我们构建了一个梯度提升分类器来预测天气统计数据中的空气质量。”

– Anay Pant,来自加利福尼亚州丹维尔的Athenian School的大一学生,也是数据马拉松的获奖者之一。

“人工智能在职场中变得越来越重要,82%的公司需要具备机器学习技能的员工。我们必须培养具备构建我们所有人都会受益的产品和体验所需的人才,其中包括软件工程、数据科学、领域知识等。我们很高兴能帮助下一代建造者探索机器学习并尝试其能力。我们希望他们能够继续发展他们的机器学习知识。我个人希望有一天能够使用由这次数据马拉松中的学生之一构建的应用程序!”

– Sherry Marcus,AWS ML解决方案实验室主任。

“这是我们首次使用SageMaker Studio Lab。我们对高中/大学生和研究生导师能够迅速开始他们的项目并使用SageMaker Studio进行合作感到满意。”

– 旧金山大学数据研究所的Diane Woodbridge。

开始使用Studio Lab

如果你错过了这次数据马拉松,仍然可以注册自己的Studio Lab账号并开展自己的项目。如果你有兴趣举办自己的黑客马拉松,请联系你的AWS代表获取Studio Lab的推荐代码,这将使你的参与者立即获得该服务。最后,你可以在旧金山大学数据研究所寻找明年的挑战。