苹果和卡耐基梅隆大学的研究人员发布了永无止境的用户界面学习者:通过持续的机器学习改变应用程序的可访问性
持续机器学习改变应用程序的可访问性:苹果与卡内基梅隆大学的研究人员发布永无止境的用户界面学习者
机器学习在各个领域中的应用越来越广泛。它被广泛应用于包括用户界面(UI)在内的所有行业中,对于预测语义数据至关重要。这种应用不仅提高了可访问性和简化了测试,还有助于自动化与UI相关的任务,从而实现了更高效和更有效的应用程序。
目前,许多模型主要依赖于人类评级的静态截图数据集。但这种方法既昂贵,又会暴露出一些活动中的意外错误倾向。因为它们无法与实时应用程序中的UI元素进行交互以确认它们的结论,所以在评估UI元素是否可点击时,人工标注者只能依赖于视觉线索。
尽管使用只记录移动应用程序固定截图的数据集存在一些缺点,但它们使用和维护起来成本很高。但是,由于它们拥有丰富的数据,这些数据集在训练深度神经网络(DNN)方面仍然是宝贵的。
- WellSaid Labs AI Voice Generator Review (2023年10月)
- “多语言人工智能真的安全吗?揭示低资源语言中大型语言模型的漏洞”
- Google AI推出SANPO:用于室外人类自我中心场景理解的多属性视频数据集
因此,苹果的研究人员与卡内基梅隆大学合作开发了永不停止的UI学习者AI系统。该系统不断与实际移动应用进行交互,使其能够持续改进对UI设计模式和新趋势的理解。它会自动从应用商店下载移动设备上的应用,并全面调查每个应用,以找到新的和困难的训练场景。
到目前为止,永不停止的UI学习者已经研究了5000个设备小时,在6000个应用上执行了50多万个操作。由于这种长时间的交互,将训练三种不同的计算机视觉模型:一种用于预测可点击性,另一种用于预测可拖动性,第三种用于确定屏幕相似性。
在这项研究中,它对每个应用程序的用户界面中的组件进行了许多互动,例如点击和滑动。研究人员强调,它使用设计的启发式来对UI元素进行分类,识别诸如按钮是否可触摸或图像是否可移动等特征。
通过收集的数据,训练了预测UI元素的可点击性和可拖动性以及已见屏幕相似性的模型。这个端到端的过程不需要任何更多的人工标记示例,即使该过程可以从在人工标记数据上训练的模型开始。
研究人员强调,这种积极调查应用程序的方法具有好处。它帮助机器识别一些常规人工标记数据集可能忽视的复杂情况。有时,人们可能没有注意到屏幕上的所有可触摸的东西,因为图像并不总是很清晰。然而,爬虫可以点击项目并立即观察结果,提供更清晰和更好的信息。
研究人员演示了基于这些数据训练的模型随时间的改进情况,经过五轮训练,预测可点击性达到了86%的准确率。
研究人员强调,专注于可访问性修复的应用程序可能会受益于更频繁的更新,以捕捉微妙的变化。另一方面,更长的间隔时间可以积累更大的UI更改,可能更适合于汇总或挖掘设计模式之类的任务。确定重新训练和更新的最佳时间表将需要进一步研究。
这项工作强调了永不停止学习的可能性,使系统能够随着不断吸纳更多的数据而适应和进步。虽然目前的系统侧重于对可点击性等简单语义进行建模,但苹果希望应用类似原理学习更复杂的移动UI和交互模式。