利用语音样本数据分析诊断帕金森病:特征选择

利用语音样本数据分析诊断帕金森病

图:穆罕默德·阿里也患有帕金森病。图像来源于https://www.greenleft.org.au/content/muhammad-ali-%E2%80%94-free-black-man

概述

帕金森病(PD)是一种神经系统损害的疾病,其特征是运动异常逐渐增加。尽管该疾病广泛存在,但目前尚无公认的治疗方法。由于缺乏准确的诊断方法且现有技术具有侵入性,PD的诊断十分困难。处理语音样本数据被正在研究作为一种非侵入性诊断方法。我们的研究目标是识别患有PD和无PD的人群中的不同语音特征,以便进行区分。研究这些听觉信号有助于开发一种简单可靠的PD诊断工具,这是本研究的目标。

本研究使用包含PD患者和健康人群语音样本的数据集。参与者记录了26个语音样本,包括单词、短语、持续元音和数字。该研究的调查基于使用免费的声学分析软件Praat获得的声学参数。本研究的目标是帮助创建一种可靠且实用的PD诊断工具。

数据文件po1_data.txt可以在此GitHub存储库中找到,Python代码为Parkinson_Diseaase_Feature_Selection.py。

理解数据

数据集有1039个条目和29个包含各种声学元素的列。数据已加载和预处理。幸运的是,该数据集不包含空值和重复条目。数据集被分为两个子集:没有帕金森病(健康)和有帕金森病(患者)。患有PD和无PD的人的比例几乎相等。这些子集将用于比较分析和可视化,以探索健康和患有PD的人之间的差异。更新后的列名提供了关于它们所代表的声学属性的见解。

描述性分析

该研究分析了患有和未患有帕金森病(PD)的两个人群的子数据集,以更好地了解中心趋势和变异性的差异。使用.describe()方法,计算了摒弃了“subject_id”等无关字段的摘要统计量。为了了解PD如何影响这些特征,计算了重要统计量的差异,重点关注均值、中位数和标准差。

图:患有PD和未患有PD的数据的中心趋势差异。

特征选择表明,患有和未患有帕金森病的数据集之间存在显著差异,其中“MaxPitch”的差异最大,达到33.81。此外,研究还揭示了严重程度评分、语音模式特征以及“MeanPitch”、“MedianPitch”和“StdDevPitch”的均值和中位数值的差异。这些发现揭示了应该在帕金森病患者和健康人群之间区分的重要特征。

直方图

本研究使用并排直方图比较了健康和不健康参与者的数字特征分布。

图:具有图案的直方图

对于诸如抖动度量的特征,直方图显示了两组之间特征分布的差异。声音变异特征显示了不同程度的离散度和偏度,其中“Shimmer”显示了“APQ5”分布。虽然“NHR”具有正偏分布,表明数据偏向较高的值,但和这些值相比,“Harmony”的均值为0.85,标准差为0.09。像“NumPulses”和“NumPeriods”这样强烈正偏的特征表明可能存在异常值或变异。像“MeanPeriod”和“StdDevPeriod”这样的属性分布接近于零,表明方差有限。“UPDRS”呈右偏分布,可能提示帕金森病的严重程度。

箱线图绘制

语音录制属性包括音高变化、声音强度变化、谐波噪声比和显示异常值的时间模式,这些异常值可能表示非典型的音高调制、声音强度迅速变化、谐波偏离或语速变化。对这些异常值的解释取决于上下文,并需要领域知识。谨慎处理这些异常值非常重要,因为它们揭示了录音中潜在的语音特征和行为的重要细节。

推断统计分析

均值差异和置信区间

图片:均值差异和置信区间

根据最大音高特征的均值差异,帕金森病组的平均最大音高值比对照组低33.810 Hz,即均值差异为-33.810。我们可以95%确定,实际的均值最大音高差异在-44.17996795243055 Hz和-23.4409801756263 Hz之间,因为该差异的置信区间为(-44.17996795243055,-23.4409801756263)。

假设检验

该研究比较了健康和患病人群的声学特征、与音高相关的测量值和临床评分。结果在多个维度上存在显著差异。然而,一些特征没有达到必要的z值,表明没有足够的支持来断定健康人群和患病人群之间存在显著差异。然而,这些特征有助于形成两个群体之间对比的全面画面。

图片:拒绝零假设的特征

通过拒绝零假设(H0),显示了健康人群和患病人群之间的显著差异。例如,“FractionUnvoicedFrames”的z值为-3.923,而“DegreeVoiceBreaks”的z值为-4.073。像“Harmony”这样的特征的z值为2.601,突出了两个群体之间的差异。其他指标,如“Jitter”指标、“MaxPitch”、“MeanPeriod”、“MeanPitch”、“MedianPitch”、“Shimmer(APQ11)”、“StdDevPitch”和“UPDRS”分数,所有这些指标的z值明显超过必要值,强调了这些偏差的重要性。

特征选择

该研究采用假设检验和特征排序的组合方法来识别检测帕金森病(PD)的最重要特征。零假设经过测试并记录在“reject_results.csv”文件中,然后对具有均值差异和置信区间的特征进行排序。通过使用NumPy的np.intersect1d()方法,研究确定了通过假设检验一致指示相关性的特征。这种策略通过关注一致指向显著性和区分特征的特征,简化了分析过程。

特征选择策略包括DegreeVoiceBreaks、FractionUnvoicedFrames、MaxPitch、MeanPitch、MedianPitch、Shimmer(APQ11)、StandardDevPitch和UPDRS。这些特征是基于它们的中心趋势,如均值、中位数和标准差进行选择的。StdDevPitch之所以被选择,是因为它的置信区间较低,并且与区分健康和不健康人群有关联。选择UPDRS是因为它的置信区间较窄,均值差异较大。FractionUnvoicedFrames和DegreeVoiceBreaks被排除在外,因为它们在直方图中看起来相似。

Jitter(%)、Jitter(Abs)、Jitter(DDP)、Jitter(PPQ5)和Jitter(RAP)被确定为检测PD的有趣特征。Jitter(%)被选择为下一个特征,因为Jitter(%)和Jitter(DDP)之间存在显著的均值差异。在选择Jitter(%)和Jitter(DDP)之间的特征时,基于直方图进行选择,因为它被认为可以更确定地帮助检测PD。

该项目的分析和可视化结果揭示了无帕金森病(PD)和有帕金森病(PD)之间听觉特征的显著差异。这些结果显示出开发一种非侵入性诊断工具用于帕金森病(PD)的潜力,该工具可能能够实现早期治疗和更好的患者结果。

所有分析完成后,最终的列为:

  • 最大音调
  • 音调标准差
  • UPDRS
  • 抖动(%)
  • PD指标

结论

为了揭示诊断帕金森病(PD)的离散听觉指标,我们通过描述性分析、推断性统计测试和领域专业知识对语音样本数据进行了全面分析。通过仔细选择并辅以假设检验、均值差异计算和特征分布可视化,我们发现最大音调、音调标准差、UPDRS、抖动(%)和PD指标在区分受PD影响的个体与健康个体方面具有一致的显著性。我们的研究突显了语音分析作为一种可行的早期检测帕金森病(PD)的技术的潜力,即使需要进行额外的测试和机器学习模型。这种选择表明了开发一种非侵入性诊断工具的潜力。

参考文献

  1. 国家神经疾病和中风研究所。 (2023)。 帕金森病信息页面。 https://www.ninds.nih.gov/healthinformation/disorders/parkinsons-disease
  2. 帕金森病基金会。 (2023)。 知名人物。 https://www.parkinson.org/understanding-parkinsons/statistics/notable-figures

关注我 成为我在VoAGI上的数据分析师之旅的一部分。

让我们在Twitter上建立联系,或者您可以通过邮件与我联系,进行项目合作、知识分享或指导。