应用机器学习方法搜索铁轨缺陷(第2部分)

利用机器学习技术搜索铁轨缺陷的最新进展(第2部分)

为了确保铁路运输的交通安全,定期使用各种方法进行轨道的无损检测。确定铁路轨道运营状况的主要方法之一是超声波无损检测[1]。目前,通过人工搜索接收到的缺陷图案来查找铁路缺陷的图像。成功开发用于搜索和分类数据的算法,使得可以提出使用机器学习方法来识别铁路缺陷,并通过创建专家系统减轻人的工作负担。

这一领域的专家系统创建复杂性描述于[1,3-6,22],一方面与多通道超声检测铁轨产生的多样的图像有关,另一方面由于具有缺陷的数据副本数量较少(不平衡)。在这个领域创建专家系统的可能途径之一是基于将分析整个多通道缺陷图分解成单独通道或其组合来描述各种缺陷类型。

最常见的铁轨缺陷之一是径向螺栓孔裂纹,文献中称之为“星形裂缝”(图1)。这种类型的缺陷主要由偏好的中心倾斜角度为380- 450范围内的超声输入的缺陷检测通道检测到[1-2]。尽管铁路网络开始采用连续轨道,但螺栓孔的诊断仍然是一项重要的任务[1-2],这也是将其纳入本研究的原因。

图1 – 铁轨螺栓孔径向裂缝示例

  • 工作目的:比较各种机器学习模型在解决铁路轨道超声检查过程中对铁轨螺栓孔状态进行分类问题的效果。

通过解决以下问题实现了设定目标:

  • 数据集的生成和准备
  • 探索性数据分析
  • 选择协议和算法操作评估指标
  • 选择和合成分类模型的实现
  • 在测试数据上评估模型的效果

数据集的生成与准备

当配备压电传感器(PZT)的缺陷探测器沿着铁路行走时,超声脉冲在指定时间内发射到轨道中。同时,PZT接收到反射波。超声法检测缺陷基于金属的反射波原理,因为裂缝和其他不均匀性在声阻抗上与金属的其余部分有所不同[1-5]。

在对铁轨进行超声扫描过程中,它们的结构元素和缺陷会产生声响应,并以缺陷图像的形式显示在缺陷图中。图2显示了以倾斜角度为输入的各种类型测量系统获得的铁轨螺栓连接的缺陷图像示例(B-扫描)。

图2 – 通过不同公司的缺陷探测器扫描铁轨螺栓孔时的单个缺陷检测通道(B-扫描)示例

可以通过应用幅度标准(图3)从这些缺陷图案中分离出单个螺栓孔(帧)。

图3 – 从B-扫描中选择带有螺栓孔报警的帧

每个帧的宽度W和长度L是相同的(图3),并根据螺栓孔信号和其缺陷的最大可能尺寸选择。每个这样的帧(实例)表示B-扫描的一部分,因此包含有关每个点的坐标、测量和尺寸的数据,以及来自铁轨上的两路超声信号的每个输入的数据(+/- 400)。在[3]的工作中,这些数据帧被转换为形状为(60,75)的矩阵,大小为60*75=4500个灰度元素,建立并成功训练了基于深度学习方法的分类网络。然而,该工作并未考虑替代和容量较小的数据帧格式选项的能力,也未展示基本方法和机器学习模型的能力,因此本工作旨在填补这一不足。

铁轨螺栓孔的各种形式的径向裂缝、它们的位置以及表面的反射特性会导致图像发生变化,并且与无缺陷状态一起生成一个具有区分7个类别的数据集。在二元分类实践中,通常将较少出现的结果或感兴趣的条件分配给类“1”,将常见条件分配给类“0”。关于缺陷的识别,我们将定义一个常见的并且在实践中经常遇到的无缺陷状态为类“0”,缺陷状态为“1”-“6”。每个缺陷类别在缺陷图案上显示为一个特征图像,专家在进行数据解密时可以看到(图4)。虽然在铁路轨道运营过程中,缺陷的存在与否(二元分类)至关重要,但我们将考虑分类算法的可能性,并量化哪些类型的缺陷或缺陷更可能被错误地分类为无缺陷,这对于铁轨的诊断是危险的情况。因此,在本研究中,将这一分类问题缩减为明确的多类别分类。

图4 – B扫描帧的示例(60, 75),其中将不同径向裂纹分配给7个类别之一

每个类别的实例可以表示为一个基本结构 – 矩形数据。为了使实例的大小相等,将表格格式的长度设置为k = 60条记录(比最大可能值多30%),用零值填充空单元格(图5a)。然后,原始实例可以采用(6, 60)的形式,或缩减为一个平面数组的形式,并在6 * 60 = 360维空间中描述(图5c),在B扫描图上看起来像图5b。

图5 – 矩形数据实例的表示

选择评估协议

从轨道的超声波测试中收集和注释数据存在着重要的困难,这些困难在[3]中有所描述,因此我们将使用使用数学建模得到的合成数据集。这种方法的本质在图6中得到了反映,并且其适用性在[3]中得到了证明。在创建现实世界的视觉对象时,“合成数据”这个术语被广泛讨论,例如在nVIDEA博客[23]中。这项工作将合成数据的应用扩展到了无损检测领域。

图6 – ML模型的应用

基于数学建模得到的足够多的数据实例,使我们能够避免罕见类别的问题,并选择以单独平衡的数据集形式评估模型的协议:训练集、验证集和测试集。让我们限定数据集:训练数据= 50,000,测试数据= 50,000和验证数据= 10,000个实例。

选择成功指标

相对类别大小的差异(类别平衡)的缺失使我们能够选择准确率作为训练算法的成功指标,它等于正确分类的实例数量与总数量之比。一个单一的指标无法评估模型在某种情况下的所有适用性方面,因此模型测试步骤使用混淆矩阵、每个类别分类器的精确度和完整度指标。

探索性数据分析

有关训练集、测试集和验证集中类别平衡的信息在图7中呈现。

图7 – 数据数量摘要

图8显示了正测量通道Ch + 400和类别0、2、3和6的归一化报警深度及其坐标的分布。通道Ch-400和通道0、1、4和5的分布具有对称模式。

图8 – Ch+400测量通道的数据的归一化坐标和深度的分布(类别0、2、3、6)

主成分分析(PCA)方法被用作探索性数据分析和数据冗余的确定,其二维表示可以用图9表示。中心类别是类别0,类别2、3、6和类别1、4、5位于相反的方向,这与它们在B扫描上的图形显示相符。

 

图9 – PCA方法二维表示的可视化

总的来说,类别的二维表示具有较弱的聚类,这表明需要使用更高维度的数据来对其进行分类,以限制在原始平面尺寸6 * 60 = 360内。PCA方法组成部分数量作为解释方差积的函数的图形(图10a)显示,在80个组成部分时,已经解释了98%的方差,这表明原始数据具有很高的冗余性。这可以通过数据的稀疏性来解释,表明PCA方法得到的80个组成部分与零值无关(图10b)。

图10 – PCA: a)PCA方法组成部分数量的解释方差积函数,b)在PCA轴上的平面数据数组的预测变量的贡献

让我们考虑每个类别的数据实例占用非零值的评估情况(图11)。

图11 – 非零类实例占用率评估

注意:

  1. 类别的范围和四分位数的相似性
  2. 类别0的中位数最低,因为螺栓孔的无缺陷状态没有额外的裂纹报警。
  3. 类别5和6具有最高的中位数值,表明由于螺栓孔上部和下部径向裂纹的报警存在导致数据填充较多。
  4. 类别1-4具有相似的中位数值,表明它们只填充了来自螺栓孔上部或下部径向裂纹的报警。
  5. 类别1和2、3和4、5和6的中位数和分布相似,这是由于数据相对于螺栓孔中心的对称性所导致的。
  6. PCA方法的80个组件的水平低于类别1-6的中位数,但足以描述98%的变异性,这可能表明不仅由数据中的零值引起的冗余,而且可能是报警的振幅值在每个类别中变化不大且对变异性影响较弱。这个事实在寻找缺陷的实践中得到了确认,其中缺陷探测器并不经常使用幅度参数。

为了评估即将进行的探索性数据分析任务的复杂性,使用流形学习技术(流形学习)对输入数据的多维结构进行了研究:

  • 随机投影嵌入
  • 等距映射(Isomap)
  • 标准局部线性嵌入(LLE)
  • 修改局部线性嵌入(LLE)
  • 局部切空间对齐嵌入(LTSA)
  • 多维缩放(MDS)
  • 谱嵌入
  • t分布随机邻居嵌入(t-SNE)

此外,还有一些可用于控制维度减少并使数据投影到较低维度的技术:

  • 截断SVD嵌入
  • 随机树嵌入
  • 邻域成分分析(NCA)
  • 线性判别分析(LDA)

将3000个原始形状样本(6,60)的数据嵌入到二维空间的算法结果如图12所示。

图12 – 使用各种技术将数据嵌入到二维空间(点的颜色表示类别)

流形学习方法中,图中的数据在参数空间中的分布较差,表明用简单的监督算法对数据进行分类的可预测复杂性。

还要注意的是,具有控制维度减少的方法线性判别分析显示良好的数据分组,并且可以作为分类模型的候选。

发展数据分类模型

基本模型

使用随机分类器的每个类别的预测准确率为1 / 7 = 0.143,这是评估未来模型的统计能力(质量)的起点。

作为基准模型,我们将选择高斯朴素贝叶斯,这在这种情况下经常使用。在训练数据上拟合模型并在测试数据上进行预测的代码片段:

图13a和b展示了得到的差异矩阵和模型质量的摘要报告。训练好的模型具有统计能力,因为它的整体准确率为0.5819,比随机分类器的准确率高4倍。尽管模型的准确率相对较低,我们将考虑其工作的定性指标与使用线性判别分析方法对投影数据进行图形表示之间的具体关系(图13c)。

图13 – 高斯朴素贝叶斯模型的质量摘要评估:a)显示模型误分类率的差异矩阵;b)以各种准确度指标形式呈现模型性能的定性指标报告;c)使用线性判别分析方法将数据投影到二维空间。

类别6的投影数据离其他类别的大多数点最远(图13c),这在其分类器的精度等于0.9888时得到了体现,然而,由于错误分类率(在差异矩阵中表现为误报率等于2164)导致了类别3表征的接近度降低,使其分类器的召回率降至0.5688。

第5类的投影也被移除了,这在其分类器的高精度(等于0.9916)中得到体现,然而,它与第1类和第4类有交叉,这影响了分类器的完整性(等于0.4163),由于对第1类和第4类的错误预测频率分别为2726和1268。

第1类的投影与第5类、第4类和第0类有交叉,相应地,分类器1在第5类上有2726个误报和在分类器0和分类器4上的漏报分别为2035和3550个。

其他类别也存在类似的关系。其中一个有趣的关系是分类器0的行为。无瑕疵的第0类处于投影的中间,这与其图像最接近的第1、2、3和4类别相对应,与第5和第6类别最明显地不同。(图4)分类器0能够很好地识别其数据类别,这导致了最高的召回率(0.9928),但在第1、2、3和4类别中有很多误报,精度为0.4224,也就是说,有缺陷的类别经常被错误地分类为无瑕疵的类别(类别0),这使得高斯朴素贝叶斯模型在缺陷检测方面完全不适用。所得到的高斯朴素贝叶斯分类器足够简单,可以描述复杂的数据结构。

线性判别分析(LDA)分类器模型

基于数据降维的初步分析显示线性判别分析方法中的类别有很好的聚类效果(图12),这成为其作为下一个模型之一的动机:

其训练和预测结果如图14所示。该模型的整体准确率为0.9162,比基本模型的准确率提高了1.57倍。然而,分类器0在第2类和第4类上有大量的误报,其精度只有0.8027,这对于实际应用来说也是一个不令人满意的指标。

图14 – 线性判别分析(LDA)分类器工作质量的综合评估

关于可能缺乏训练数据集以提高LDA模型准确性的假设未得到证实,因为基于模型数据的构建“学习曲线”在训练集大小为5000-6000个项目时显示出很高的训练和测试准确率相关性的收敛性,达到0.92的水平:

图15:在训练集大小为5000-6000个项目时,训练和测试准确率相关性的高度收敛

在尝试创建这样一个分类系统时,缺陷检测设备的制造商面临着评估系统的预测准确性与数据集中需要在轨道诊断过程中获得的项目数量之间的依赖关系的困难。根据模型数据得出的学习曲线可以在这种情况下估计该数字在5000-6000个副本的范围内,以在LDA算法的框架内达到准确度0.92。

LDA分类器学习曲线对训练数据的降低依赖性(图15中的蓝色部分)表明它对于复杂的数据结构来说足够简单,因此有必要寻找更复杂的模型来提高预测准确性。

密集网络

增加预测准确性的一种选项是使用全连接网络。使用Keras_tuner工具找到最佳参数后,该结构的选项如图16a所示,模型的准确性相对于之前的方法提高到0.974(图16b),而零类分类器的精度达到了0.912。

图16 – 模型结构和准确性指标

通过使用更复杂(计算成本更高)的机器学习算法来不断提高预测准确性的进步表明采取行动创建越来越复杂的模型是有道理的。

支持向量机(SVM)

使用核函数作为径向基函数和网格搜索模型超参数的支持向量算法(通过scikitlearn机器学习库的GridSearchCV类)得到一种具有改良质量参数的模型(图17)。

图17 – 基于支持向量机(SVM)的分类器性能估计摘要

SVM方法的使用将整体预测准确率提高到0.9793,将空分类器的精度提高到0.9447。然而,在拥有初始维度为360的测试数据集上,该算法的平均运行时间为9.2秒,是考虑的分类器中最长的。通过使用降低源数据维度的技术和SVM算法的流水线来减少模型的运行时间并不能保持已达到的准确性。

随机森林分类器

基于scikitlearn包中实现的一组随机树的RandomForestClassifier分类器是提高所考虑数据分类准确性的候选之一:

图18显示50个树的随机森林算法在测试集上的性能估计。该算法使整体预测准确率提高至0.9991,并使重要指标-空分类器的精度提高至0.9968。空类别分类器在类1-4中产生了最多的错误,因为它们在图形表示上相似。类1-4的分类器精度很高,由于对5和6类别的错误而降低,但在识别缺陷方面不是关键问题。

根据在CPU上预测测试数据集的算法平均运行时间为0.7秒,比SVM的运行时间少13倍,同时准确率提高了0.02%。

图18 – 基于随机树方法的分类器质量综述

图19显示的RandomForestClassifier分类器的学习曲线呈现出构建模型的高度优化水平:

  • 随着训练数据的增加,模型的效率不会降低,这表明不存在欠训练效应。
  • 在训练和测试阶段的效率评估趋于一致,并且具有较高的值,其差异不超过0.028,这可能表明模型没有过度训练。

图19 – 随机森林分类器的学习曲线

由该学习曲线得出的结果可以估计达到0.98水平的可接受准确性所需的每个类别样本的最小数量:1550个数据副本,即每个7类别样本的数量为1550 / 7 = 220个。

随机森林算法的高准确性和速度使您能够评估所有360个预测变量对模型整体准确性的影响(重要性)。通过混淆其中一个变量来获得模型平均准确性的减少,以评估变量的重要性。图20显示了评估变量重要性对模型准确性的影响的代码片段的结果:

图20 – 基于RandomForestClassifier的模型准确性评估的预测变量重要性评估

图20中的图表显示,预测变量的最重要部分在通道+40处为60至85,而在通道-40处为240至265,它们决定了警报的深度。每个范围的开头和结尾处的峰值表示了警报开头和结尾深度的更高预测重要性。总共重要的变量数量估计为50个。

决定每个数据实例中警报坐标和幅度的变量的重要性要低得多。这种评估符合探索分析期间所做的假设。在不考虑幅度的情况下,通过完整训练数据集训练RandomForestClassifier的整体准确率为0.9990,而不考虑幅度和坐标则为0.9993。对于每个数据实例,排除幅度和坐标等参数将数据规模减小为(2,60)= 120个预测变量,而不会降低准确性。获得的结果使我们能够仅使用警报深度参数来进行数据分类。

RandomForestClassifier实现的准确度已足够解决螺栓孔缺陷的分类问题。然而,为了推广能力,让我们考虑一类基于卷积神经网络的深度学习模型。

深度学习(DL)模型

合成和训练卷积网络需要一个迭代过程,寻找最佳结构并优化它们的超参数。图21显示了一个简单网络结构的最终版本,以层的线性堆叠形式和它的训练过程。

图21-模型结构和训练过程报告

卷积神经网络的训练和预测结果如图21所示。模型在测试数据上的整体准确度为0.9985,比基准模型的准确度提高了1.71倍。分类器0的误报数目为2+24+6+2=34,共有42893个缺陷实例(图22a)。在CPU上对测试数据进行预测的平均时间为4.55秒。

图22-基于CNN在测试数据上工作质量的综合评估

结果分类器在实际使用中的一个重要任务将是准确确定无缺陷类(类别0),以消除将有缺陷的样本误分类为非有缺陷的情况。可以通过改变概率阈值来减少无缺陷类的误报数目。为了估计适用的阈值截断水平,对多类问题进行了二值化,选择无缺陷的状态和所有有缺陷的状态,这对应于”One vs Rest”策略。默认情况下,二值分类器的阈值设为0.5(50%)。采用sklearn.metrics.precision_recall_curve函数可以反映二值分类器在不同阈值截断水平下的精确度和召回率的变化(图24a)。在0.5的阈值截断水平下,误报值为34个样本(图24b)。分类器的最大精确度和召回率水平在它们的曲线交点处达到,对应于0.66的阈值截断水平。在这个点上,分类器将无缺陷类的误报数目减少到27个(图24b)。将阈值提高到0.94的水平使误报数目减少到8,但由于误拒识别增加到155个样本,从而降低了分类器的召回率(图24b)。进一步提高阈值会显著降低分类器的召回率到不可接受的水平(图24a)。

图24-阈值截断效应:a)根据截断阈值变化的精确度和召回率的变化图(精确度-召回率曲线);b)不同阈值截断下的相似度矩阵

在设置截断阈值为0.94的情况下,分类器的质量评估如图25所示。”无缺陷”类别的精确度提高到0.9989。

图25-截断阈值为0.94的二值分类器的定性指标

图26展示了8个误报被分类为正样本的数据样本,并标出了缺陷的特征性图形标记。

图26 – 八个被误分类的正样本

上述图像中,有争议的样本是标记为“有争议”的样本,它们表明存在一个非常短的径向裂纹,很难进行分类。其余的6个样本是分类器的错误。请注意,缺陷样本以显著长度的径向裂纹的形式以及在手动缺陷探测仪分析中最容易进行分类的缺陷样本的缺乏的形式的定性指标。

可以通过使用DL和RandomForestClassifier的结果模型的集合来进一步提高模型的准确性。考虑的模型可以添加到集合中,但使用不同的输入数据格式,包括直接的B扫描格式,如[3]中所示。

结论与讨论

用于分类螺栓孔缺陷的开发模型的主要质量指标总结在图27的图表中。分类模型的逐步和合理的复杂化在图表中以整体准确度(蓝色)和0类别精确度(橙色)的提高形式体现出来。基于随机森林和卷积神经网络的模型实现了高于0.99的最大准确率。与此同时,随机森林模型在预测上所花费的时间较少。

图27 – 考虑的分类模型的突出质量指标

在本作品中

  1. 通过将超声波探伤仪分解为具有数据的单独通道并分配单独的诊断站点,展示了在超声波探伤仪上搜索缺陷的可能性。
  2. 评估形式为幅度和坐标的预测变量对分类质量的影响。
  3. 给出了构建螺栓孔缺陷分类模型所需的数据集数量的估计,以实现98%的准确度,可以作为制造商在创建自动专家系统时的指南。
  4. 展示了基于经典机器学习算法对铁路螺栓孔状态进行分类实现高准确率的可能性。
  5. 获得了深度学习模型运行的定性评估,并展示了使用卷积神经网络架构合成用于在连续缺陷图案(B-scan)中搜索缺陷的分割网络的可能性和可行性。

参考文献

  • [1] Markov AA, Kuznetsova EA. 铁路缺陷检测. 信号的形成和分析. 书2. 缺陷图解的解码. 圣彼得堡:蓝色印刷;2014年。
  • [2] Markov AA, Mosyagin VV, Shilov MN, Fedorenko DV. AVICON-11:用于轨道100%检测的新型缺陷检测仪器. NDT World Review. 2006; 2 (32): 75-78. 可从:http://www.radioavionica.ru/activities/sistemy-nerazrushayushchego-kontrolya/articles/files/razrab/33.zip [Accessed 14th March 2023]。
  • [3] Kaliuzhnyi A. 应用于超声波诊断中铁路螺栓孔缺陷分类器训练的模型数据. 人工智能演化[互联网]. 2023年4月14日[cited 2023年7月28日];4(1):55-69. DOI:https://doi.org/ 10.37256/aie.4120232339
  • [4] Kuzmin EV, Gorbunov OE, Plotnikov PO, Tyukin VA, Bashkin VA. 应用神经网络来识别磁性和涡流缺陷图解中的铁路结构元件。信息系统的建模与分析。2018年;25(6):667-679。 可从:doi:10.18255/1818-1015-2018-6-667-679
  • [5] Bettayeb F,Benbartaoui H,Raouraou B。 人工神经网络对焊缝超声表征的可靠性。第17届无损试验世界会议;2008;中国上海。[Accessed 14th March 2023]。
  • [6] Young-Jin C,Wooram C,Oral B。基于卷积神经网络的深度学习裂缝损伤检测。计算机辅助土木和基础设施工程。 2017年;32(5):361-378。 可从:doi:10.1111/mice.12263
  • [7] Heckel T, Kreutzbruck M, Rühe,S, 先进超声和涡流检测技术进行高速非破坏铁路检测。第五届国际无损检测专家研讨会-NDT in progress 2009(会议纪要)。2009年;5:101-109。[Accessed 14th March 2023]。
  • [8] Papaelias M, Kerkyras S, Papaelias F, Graham K. 铁路检测技术的未来和INTERAIL FP7项目。第51届英国无损试验研究所年会2012年,NDT 2012. 2012年[Accessed 14th March 2023]。
  • [9]  Rizzo P,Coccia S,Bartoli I,Fateh M。轨道的非接触式超声波检测和自动缺陷检测和分类的信号处理。Insight。2005年;47(6):346-353。 可从:doi:10.1784/insi.47.6.346.66449
  • [10] Nakhaee MC,Hiemstra D,Stoelinga M,van Noort M. 机器学习在铁路轨道维护中的最新应用:一项调查。在:Collart-Dutilleul S,Lecomte T,Romanovsky A。(编)可靠性,安全性和铁路系统的安全性。建模,分析,验证和认证。RSSRail 2019。计算机科学讲义(),卷11495. 施普林格,尚;2019年。pp.91-105。 可从:doi:10.1007/978-3-030-18744-6_6。
  •  [11] Jiaxing Y, Shunya I, Nobuyuki T. 计算机化的超声成像检测:从浅层到深度学习。传感器。2018年;18 (11):3820. 可从:doi:10.3390/s18113820
  • [12] Jiaxing Y, Nobuyuki T. 自动超声成像检测的深度学习模型基准测试。IEEE Access。 2021年;9:pp 36986-36994. 可从:doi:10.1109/ACCESS.2021.3062860
  • [13] Cantero-Chinchilla S,  Wilcox PD, Croxford AJ. 自动超声无损检测中的深度学习-发展,原理和机遇。ArXiv电子打印:2112.06650。2021年。 可从:doi:10.48550/ArXiv.2112.06650
  • [14] Cantero-Chinchilla S,  Wilcox PD, Croxford AJ