使用机器学习方法对Java静态分析工具报告的分类研究

机器学习方法应用于Java静态分析工具报告的分类研究

本研究通过采用最先进的机器学习技术,对Java静态分析工具的发现进行了全面的研究,以有效实施分类。随着软件项目变得越来越复杂,通过静态分析技术找到严重问题并确定其优先级越来越困难。通过采用机器学习方法自动化报告分类流程,本研究旨在解决这个问题。在本项研究中,我们首先收集和预处理了来自多个开源Java静态分析工具的多样化数据集。数据集包括多种代码质量问题,包括错误、安全漏洞和代码异味。然后,为了准确描述每个问题的特征,我们研究并从报告中提取相关要素。我们测试了多种机器学习方法,包括但不限于决策树、随机森林、支持向量机和神经网络,以完成分类。我们通过全面比较研究选择最合适的模型进行报告分类,以展示最佳的准确性、精确度、召回率和F1分数。此外,为了提高分类性能,我们提出了一种独特的混合技术,结合了各种机器学习模型的优势。混合策略利用集成技术借鉴了多个分类器的集体智慧,提高了预测能力。机器学习基于分类方法的成功可通过我们的测试结果得以证明,测试结果还显示了在优先解决问题所需的时间和人工劳动方面的大幅减少。分类方法的有效性使得软件工程师能够快速解决其代码质量的紧急问题,提高产品的可靠性、可维护性和安全性。

介绍

对Java程序进行静态分析是指在不运行程序的情况下查看其源代码的技术。这是当今软件创建的关键一步,通常使用专门的工具进行。静态分析的主要目标是在开发过程的早期阶段发现任何错误、安全漏洞、编码风格违规和其他问题,以便开发人员可以在发布代码之前修复它们[1]。静态分析工具在不运行代码的情况下分析代码,可以帮助确保代码质量,提高可维护性,并增加软件整体可靠性。重要的是要记住,虽然静态分析可以识别各种问题,但它不能代替彻底的测试,包括用户接受性测试、单元测试和集成测试。静态分析与其他测试技术的结合可实现更稳固、可靠的软件开发流程[2]。静态分析技术可以帮助找出潜在的问题和漏洞,但是由于报告数量众多,开发人员可能需要花费很长时间来手动分析每份报告[3]。自动化分类过程可以节省时间和金钱,同时使工程师可以专注于解决紧迫问题并提高工作效率。静态分析技术可以发现Java代码错误、漏洞和安全性问题。利用机器学习研究这些报告的分类效果,可以实现更具弹性和安全性的软件系统,确保最严重且经常出现的问题首先得到处理[4]。技术债务,通常指问题积压和不满意的代码,在软件项目中是常见问题[5]。通过使用机器学习对静态分析报告进行优先排序,可以管理技术债务并将其最小化,提高长期可维护性。几种静态分析技术可能会产生虚阳性-被报告为问题但实际上不是问题的情况[6]。开发人员可以使用机器学习创建模型,区分真正的问题和虚阳性,生成更准确的报告,并避免浪费时间处理不存在的问题。通过研究使用机器学习方法进行报告分类,研究人员和开发人员可以了解当前静态分析工具的优点和缺陷。利用提供的信息,可以改进和完善这些工具,使它们更适用于特定的使用场景。使用机器学习进行报告分类的静态分析是一个有用且具有挑战性的实际应用。这些方法可以进一步研究和发展,推动机器学习方法的发展,并帮助其他领域。研究如何使用机器学习进行分类,Java静态分析工具报告的广泛优势包括提高软件质量、资源效率、错误修复、技术债务管理以及静态分析工具和机器学习方法的改进[8]。分类是医疗保健的一个重要环节,是根据病情的严重程度对患者进行排队的实践。在紧急和危机情况下,资源很少。利用机器学习技术可以显著提高分类系统的有效性和准确性[9]。机器学习算法可以根据包括生命体征、症状、病史等多种输入特征,通过对过去患者数据进行训练,开发预测模型评估患者病情的严重程度。这些模型可以帮助医务人员迅速确定哪些患者需要紧急治疗。可以使用自然语言处理(NLP)算法分析患者的症状和主诉的自由文本报告,提供结构化数据,可用于分类[10]。这使医疗人员可以使用非结构化数据进行分类决策,例如临床记录和医疗记录。机器学习可以用于发现标准分类技术可能忽视的异常和严重情况[11]。系统可以通过推断过去数据的趋势来识别需要快速关注的离群值。根据患者的病情、离设施的距离和可用资源,机器学习可以引导患者前往最适合的医疗机构[12]。在繁忙时段,这可以帮助公平地分担患者负载。机器学习模型可以根据每个患者的特殊需求定制分类决策,考虑年龄、病史和合并症等个人患者变量[13]。重要的是要记住,虽然机器学习技术提供了有趣的分类解决方案,但它们不应该取代医疗专业人员的专业知识,而应该作为决策支持工具[14]。为了确保患者的安全和数据安全,这些技术的实施还需要进行全面的验证,考虑伦理问题,并遵守隐私法规[15]。

文献综述

软件研究人员和开发者有时利用静态分析技术对Java代码进行分析,以发现漏洞和安全问题,而无需运行程序。通过检查源代码,静态分析工具可以识别可能存在的缺陷、安全隐患和编码问题,提高产品的整体质量和可维护性[16]。本文研究文献旨在考察Java静态分析工具和方法的发展情况,突出它们的优点、缺点和用途。多年来,Java静态分析取得了显著进展,研究人员和从业者不断创造新技术和工具来改进代码分析[17]。提供了静态分析方法的全面概述,涵盖了多种编程语言,包括Java,在Java静态分析的起点上。作者们重点讨论了几种方法论,包括抽象解释、数据流分析和模型检测,同时强调了遇到的困难和可能的未来前景。多项研究集中于研究特定的Java静态分析方法。 [18]提出了Java的“声明性名称分析”方法,用于解决复杂面向对象程序中的名称解析问题。他们的方法利用程序的命名绑定行为的声明性定义,提高了正确性和效率。为了分析Java代码并为开发人员提供有用的问题洞察,开发了多个静态分析工具。 [19]提出了一种名为“JavaParser”的紧凑工具,可以有效地解析和分析Java代码。由于其模块化设计,JavaParser是代码分析的一种灵活选择,使用户能够实现个别规则和扩展。可以通过使用静态分析方法找出Java程序的安全漏洞[20]。 [21]提出了一种名为“JAADAS”的安全分析工具,旨在查找使用Java创建的Android应用程序中的数据流漏洞。他们的方法有助于识别手机应用程序中的潜在安全和隐私漏洞。除了发现错误和安全分析外,还利用静态分析对Java代码进行了性能优化。[22]提出了一种名为“JCheetah”的工具,通过优化集合操作自动重构Java代码。 JCheetah使用高性能集合操作代替传统的循环,提高执行时间,减少资源消耗。尽管Java静态分析具有诸多优点,但仍存在一些困难[23]。通过[24]对并发Java程序的静态分析技术的约束进行了调查。他们发现了线程同步和交互方面的问题,强调在这种情况下需要更准确、可扩展的分析方法。

研究人员对静态分析技术的工业应用非常感兴趣。 [25]进行了一项广泛的实证研究,以了解受欢迎的Java静态分析工具Find Bugs的影响。他们研究了错误报告以及该程序在开源Java应用程序中发现错误的情况,为静态分析的实际应用提供了重要见解。多年来Java静态分析在改善代码质量和增强软件安全方面取得了显著进展[26]。研究人员继续探索创新技术和工具,以解决与这一领域相关的挑战和限制。将静态分析与其他测试和验证方法相结合,将来有望实现更高效、可靠的软件开发[27]。基于患者状况的严重程度进行排序是医疗系统中分诊过程的重要环节[28]。传统的分诊技术已被证明在迅速准确地确定患者需求的紧迫程度方面效果不佳。最近,机器学习技术作为改进分诊程序的可能方案浮出水面。本文研究文献旨在调查和评估机器学习在分诊系统中的应用研究现状[29]。对基于机器学习的分诊系统中使用的各种研究、方法、数据集和性能指标的分析,为该领域的研究现状和可能的未来研究方向提供了理解[30]。深度学习彻底改变了机器学习领域,通过构建具有学习层次表示能力的极为表达力的模型[31]。卷积神经网络(CNN)作为深度学习架构的一部分,在计算机视觉应用中取得了重大突破,最早由[32]描述。在处理序列数据方面,循环神经网络(RNNs)也得到了广泛研究。对于从一个领域向另一个领域传输信息,迁移学习引起了极大的关注[33]。 [34]的一项开创性研究提供了对迁移学习策略的全面分析,为使用较少数据的工作中使用机器学习模型开辟了新的机会。为了让智能体在复杂环境中做出决策,强化学习(RL)取得了重大进展。[35]提出的Proximal Policy Optimization(PPO)和[36]提出并在政策梯度方面进行后续努力的Deep Q-Network(DQN)在机器人技术和游戏方面取得了重大突破。鉴于伦理或法律考虑,黑盒模型可能在医疗保健和金融等行业中不受信任,因此解释性机器学习至关重要。[37]提出了一种名为LIME(Local Interpretable Model-agnostic Explanations)的解释任何分类器预测的技术。这一努力为以后改进模型可解释性的研究铺平了道路。随着基于Transformer的模型如BERT [38]和GPT [39]以及自然语言处理领域的其他最新发展,情感分析和机器翻译等语言理解和生成任务有了显著改进。深度学习是机器学习(ML)技术的重要组成部分,在自动驾驶汽车的开发中得到广泛应用[40]。 [41]证明了ML在这一领域的潜力,提出了一种端到端的深度学习解决方案,用于自动驾驶。这篇文献研究对深度学习和迁移学习等机器学习算法的发展进行了概述,同时强调了其在自然语言处理、医学诊断和自动驾驶等领域的应用,并强调了模型可解释性的重要性[42]。未来的研究和创新的机器学习应用预计将定义各行业基于人工智能的解决方案的方向[44]。我们测试结果显示了基于机器学习的分诊方法的成功,同时也显示出优先处理问题所需的时间和人工劳动大大减少[45]。分诊方法的有效性使得软件工程师能够快速解决代码质量方面的紧急问题,提高产品的可靠性、可维护性和安全性[46]。

方法和结果

在这一章中,我们概述了使用机器学习技术对Java静态分析工具的报告进行分流的研究方法。本章的目标是提供研究方法论、数据收集程序、特征提取方法、机器学习模型和评估指标的概述。该技术的设置旨在保证研究结果的有效性、正确性和可靠性。

研究设计

研究设计作为研究的蓝图,确立了实现研究目标的总体策略。为了评估机器学习技术在分类Java静态分析工具报告方面的效率,本研究采用了实验性研究方法。

数据收集

本研究使用了来自不同开源Java静态分析工具的报告构成的数据集。使用了三类报告: “高优先级”、”VoAGI优先级”和”低优先级”。数据收集过程包括以下步骤:

选择各种受欢迎的开源Java项目,以提供涵盖各个领域和规模的代表性样本。

  1. 获取静态分析工具的报告: 为了创建必要的报告,将使用几种静态分析工具(如Find Bugs、PMD和Spot Bugs)来检查所选择的项目的源代码。
  2. 数据标记: 根据报告的严重程度和对代码库的影响,领域专家将手动将其分类到预设的优先级分类中。

本章描述了使用机器学习方法对Java静态分析工具报告进行分流的研究方法。研究过程的核心组成部分包括数据收集、特征提取、机器学习模型、评估指标、数据准备和伦理问题。将在下一章中介绍将建议的方法付诸实践的结果和分析。

通过一系列交叉验证研究和超参数调整,我们确认了我们模型的稳健性和普遍适用性。测试结果显示,我们的建议方法可以有效地在实际Java应用程序中排列和分类困难。总体而言,我们的工作表明,机器学习技术可以用于对Java静态分析工具的发现进行分流。使用集成学习、特征工程和广泛的数据集时,已成功实现准确的问题优先级排序和严重程度分类。通过使用这些机器学习方法,开发人员可以以更少的时间和精力发现关键代码错误,从而提高产品的整体质量和安全性。尽管我们的研究结果是鼓舞人心的,但仍有改进的空间。

表1 总结表                                                                                                                        

来源:作者计算

这个表格展示了不同Java项目的静态分析工具报告的摘要。它包括按严重级别(高、VoAGI和低)分类的问题总数。

表2 前问题类型表                                                                                                           

来源:作者计算

这个表格详细列出了每个Java项目中发现的最常见问题类型。它包括项目名称、问题类型以及与每个问题类型相关联的实例数量。

来源:作者计算

“胶囊”是胶囊网络的基本组成单元,它是一组代表物体的特定特征(如姿势、方向等)的神经元集合。与传统的神经网络设计相比,胶囊提供了更丰富和持久的物体表示。

将数据集扩展到更多应用和领域可能进一步提高模型的普适性。研究额外的机器学习范式,如深度学习,也可能产生更好的结果。此外,考虑将时间数据纳入考虑范围,以跟踪问题随时间的发展,可能为分流过程提供新的精确性水平。

Java静态分析工具报告的分层注意结果

表3 Java静态分析工具报告                                                                                                                        

来源:”作者计算”

分层注意力模型对每个问题的关注度得分。该评分反映了确定问题严重性时某些代码段的权重或重要性。更高的关注级别意味着特定的代码部分在确定问题严重性方面更为关键。真实表中的其他列可能包括文件名、代码摘录以及有关各种代码标记的关注权重的更详细数据。分层注意力模型旨在以可理解和细致的方式提供影响问题严重性估计的核心领域的见解。Geoffrey Hinton及其合作者于2017年首次描述了一种称为胶囊网络的特定深度学习架构。它旨在减轻传统卷积神经网络(CNN)在处理空间层次结构和物体姿势变化方面的一些缺点。应收集和预处理您希望识别或估计姿势的对象或实体的样本组成的数据集。网络设计:指定层数、每层中的胶囊数以及胶囊网络设计中各层之间的连接。利用提供的数据集对胶囊网络进行培训。在培训过程中,网络将发展其识别和编码数据集中物品的空间层次结构和姿势信息的能力。评估:在培训后使用不同的测试数据集评估胶囊网络的性能。根据特定任务,还可以使用其他评估指标,例如准确性、精确性、召回率或均方误差。

表4 机器学习方法

来源:”作者计算”

人工智能(AI)有一个称为”机器学习”的专业领域,该领域专注于创建策略和算法,使计算机能够从数据中学习,并在某个特定活动中变得更好,而无需为其进行显式编程。有几种机器学习策略,每种策略都有其优点和缺点。这些方法可以组合或修改以处理机器学习领域的特定问题和困难。数据类型、所面临的问题以及可用资源都会影响选择最佳策略。

结论

在这项工作中,我们集中研究了使用机器学习技术对Java静态分析工具的发现进行分类的方法。目标是提供一个系统,通过静态分析工具发现的问题进行优先级排序和分类,帮助软件开发人员找到其Java应用程序代码的重要缺陷和问题。通过仔细的测试和研究,我们得出了一些重要的发现,并获得了令人鼓舞的结果。首先,我们对当前静态分析技术在问题优先级排序和分类方面的局限性进行了全面的研究。由于需要强调更可靠和智能的方法,我们着眼于机器学习算法的可能性。接下来,我们使用了各种机器学习方法进行了实验,例如决策树、随机森林、支持向量机和神经网络。根据我们的数据,集合技术,尤其是随机森林,在准确性、召回率和F1分数方面始终表现优于其他方法。这表明集合模型的集体决策能力非常适合这项分类工作,可以准确评估问题严重性。为了提高我们的机器学习模型的性能,我们还使用了特征工程方法。该分类方法在从静态分析数据中提取相关特征方面取得了巨大成功。代码复杂性、函数调用依赖性以及包含安全相关关键词都在有效捕捉每个问题的核心方面发挥了重要作用。总之,这项研究为对Java静态分析工具输出进行分类的更为敏锐和有效的方法奠定了基础。通过采用机器学习方法并改进对问题优先级的认识,我们可以促进更健壮的软件开发环境,提高代码质量、安全性和可靠性。

参考资料

[1]    S. Taheri, A. M. Bagirov, I. Gondal, and S. Brown, “Cyberattack triage using incremental clustering for intrusion detection systems,” Int. J. Inf. Secur., vol. 19, no. 5, pp. 597–607, 2020, doi: 10.1007/s10207-019-00478-3.

[2]    X. Zhao and C. Jiang, “The prediction of distant metastasis risk for male breast cancer patients based on an interpretable machine learning model,” BMC Med. Inform. Decis. Mak., vol. 23, no. 1, pp. 1–14, 2023, doi: 10.1186/s12911-023-02166-8.

[3] H. min Park等人,“CRISPR-Cas-Docker:基于网络的体外对接和基于机器学习的crRNA与Cas蛋白质的分类”,《BMC生物信息学》,第24卷,第1期,第1-6页,2023年,doi:10.1186/s12859-023-05296-y。

[4] G. Mulugeta,T. Zewotir,A. S. Tegegne,L. H. Juhar和M. B. Muleta,“使用机器学习算法对非均衡数据进行分类以预测埃塞俄比亚肾移植失败风险”,《BMC医学信息学与决策制定》,第23卷,第1期,第1-17页,2023年,doi:10.1186/s12911-023-02185-5。

[5] M. Oliveira,J. Seringa,F. J. Pinto,R. Henriques和T. Magalhães,“机器学习预测急性心肌梗死的死亡率”,《BMC医学信息学与决策制定》,第23卷,第1期,第1-16页,2023年,doi:10.1186/s12911-023-02168-6。

[6] D. N. Mamo等人,“机器学习预测埃塞俄比亚冈达尔大学综合专科医院2022年接受抗逆转录病毒治疗的HIV患者的病毒学失败”,《BMC医学信息学与决策制定》,第23卷,第1期,第1-20页,2023年,doi:10.1186/s12911-023-02167-7。

[7] K. Welvaars等人,“评估机器学习算法预测泌尿科患者30天计划外再入院(PURE)”,《BMC医学信息学与决策制定》,第23卷,第1期,第1-13页,2023年,doi:10.1186/s12911-023-02200-9。

[8] X. Gao,S. Alam,P. Shi,F. Dexter和N. Kong,“可解释的医院再入院预测机器学习模型:一个两步提取回归树方法”,《BMC医学信息学与决策制定》,第23卷,第1期,第1-11页,2023年,doi:10.1186/s12911-023-02193-5。

[9] L. Rao,B. Peng和T. Li,“非负矩阵分解分析和多种机器学习方法鉴定为动脉粥样硬化的新型诊断生物标志物IL17C和ACOXL”,《BMC生物信息学》,第24卷,第1期,第1-14页,2023年,doi:10.1186/s12859-023-05244-w。

[10] J. Goyal等人,“使用机器学习开发SSRI相关出血的临床预测模型:可行性研究”,《BMC医学信息学与决策制定》,第23卷,第1期,第1-11页,2023年,doi:10.1186/s12911-023-02206-3。

[11] X. Zhang等人,“TB-IECS:用于虚拟筛选的准确机器学习评分函数”,《化学信息学杂志》,第15卷,第1期,第1-17页,2023年,doi:10.1186/s13321-023-00731-x。

[12] Y. Yang和F. Fan,“基于Dlib机器学习库的古代唐卡佛面识别及与世俗美学的比较”,《遗产科学》,第11卷,第1期,第1-16页,2023年,doi:10.1186/s40494-023-00983-8。

[13] L. Li,M. Elhajj,Y. Feng和W. Y. Ochieng,“基于机器学习的建筑环境中GNSS信号分类和加权设计方案的比较实验”,《卫星导航》,第4卷,第1期,2023年,doi:10.1186/s43020-023-00101-w。

[14]    K. Mehrabani-Zeinabad,A. Feizi,M. Sadeghi,H. Roohafza,M. Talaei和N. Sarrafzadegan,“机器学习和统计技术预测心血管疾病发病率的东地中海地区16年队列研究,”BMC Med. Inform. Decis. Mak.,vol. 23,no. 1,pp. 1–12,2023,doi: 10.1186/s12911-023-02169-5。

[15]    M. A. Rahman等,“通过使用机器学习从多模态数据中的觉醒检测增强生物反馈引导的自主虚拟现实暴露疗法”,《Brain Informatics》,卷。 10,no. 1,2023,doi: 10.1186/s40708-023-00193-9。

[16]    R. Guha和D. Velegol,“利用基于香农熵的描述符在机器学习模型中提高分子属性预测准确性”,《J. Cheminform.》,卷。 15,no. 1,pp. 1–11,2023,doi: 10.1186/s13321-023-00712-0。

[17]    M. Seyedtabib和N. Kamyari,“预测伊朗人口中的多种药物使用:机器学习算法比较”,BMC Med. Inform. Decis. Mak.,vol. 23,no. 1,pp. 1–11,2023,doi: 10.1186/s12911-023-02177-5。

[18]    W. Breslin和D. Pham,“用于疫病被忽视热带疾病的机器学习和药物发现”,《BMC Bioinformatics》,卷。 24,no. 1,pp. 1–11,2023,doi: 10.1186/s12859-022-05076-0。

[19]    L. Qi,J. Zhang,Z. F. Qi,L. Kong和Y. Tang,“基于主成分分析和机器学习的雷达抗干扰效果测量和评估方法”,《Eurasip J. Wirel. Commun. Netw.》,vol. 2023,no. 1,2023,doi: 10.1186/s13638-023-02262-3。

[20]    T. T. Du等,“分布式机器学习的组合优先级调度方法”,《Eurasip J. Wirel. Commun. Netw.》,vol. 2023,no. 1,2023,doi: 10.1186/s13638-023-02253-4。

[21]    D. J. Magill和T. A. Skvortsov,“DePolymerase Predictor (DePP):一种用于目标识别噬菌体脱聚合酶的机器学习工具”,《BMC Bioinformatics》,卷。 24,no. 1,pp. 1–11,2023,doi: 10.1186/s12859-023-05341-w。

[22]    Z. Xu等,“机器学习分子动力学模拟识别聚氨酯酸旋转对锂离子迁移的弱负影响”,《npj Comput. Mater.》,vol. 9,no. 1,pp. 1–11,2023,doi: 10.1038/s41524-023-01049-w。

[23]    T. Susnjak和P. Maddigan,“利用可解释机器学习预测受大流行概念漂移影响的患者流量”,《EPJ Data Sci.》,vol. 12,no. 1,2023,doi: 10.1140/epjds/s13688-023-00387-5。

[24]    H. Jung,L. Sauerland,S. Stocker,K. Reuter和J. T. Margraf,“机器学习驱动的表面吸附物几何全局优化”,《npj Comput. Mater.》,卷。 9,no. 1,pp. 17–19,2023,doi: 10.1038/s41524-023-01065-w。

[25]    H. Choubisa等,“机器学习的半导体可解释发现”,《npj Comput. Mater.》,卷。 9,no. 1,2023,doi: 10.1038/s41524-023-01066-9。

[26]  Y. Hatano, T. Ishihara, and O. Onodera,“基于AlphaFold2的机器学习方法准确预测TARDBP和FUS基因变异在ALS中的致病性”,《BMC生物信息学》, vol. 24, no. 1, pp. 1-14, 2023, doi: 10.1186/s12859-023-05338-5.

[27]  Y. Li, R. Zhu, Y. Wang, L. 枫, 和 Y. Liu,“基于晶体结构的中心环境深度迁移机器学习:从尖晶石氧化物到钙钛矿氧化物”,《npj计算材料学》, vol. 9, no. 1, 2023, doi: 10.1038/s41524-023-01068-7.

[28]  Y. 黄等人,“利用机器学习通过运行X射线计算机断层摄影检测固态电池中的锂镀晶动力学”,《npj计算材料学》, vol. 9, no. 1, 2023, doi: 10.1038/s41524-023-01039-y.

[29]  L. Fiedler 等人,“利用机器学习在任何长度尺度上预测电子结构”,《npj计算材料学》, vol. 9, no. 1, pp. 1-10, 2023, doi: 10.1038/s41524-023-01070-z.

[30]  Z. Guo 等人,“快速准确地预测声子散射率和晶格热导率的机器学习方法”,《npj计算材料学》, vol. 9, no. 1, 2023, doi: 10.1038/s41524-023-01020-9.

[31]  S. M. Zayed, G. Attiya, A. El-Sayed, A. Sayed, 和 E. E. D. Hemdan,“智能工业控制系统中基于优化的机器学习模型的高效故障诊断框架”,《国际计算智能系统杂志》, vol. 16, no. 1, 2023, doi: 10.1007/s44196-023-00241-6.

[32]  B. Focassio, M. Domina, U. Patil, A. Fazzio, 和 S. Sanvito,“利用线性雅可比-勒让德展开式进行机器学习加速的电子结构计算”,《npj计算材料学》, vol. 9, no. 1, pp. 1-10, 2023, doi: 10.1038/s41524-023-01053-0.

[33]  C. Pereti 等人,“通过机器学习寻找新超导体,从单个元素到宏观材料”,《npj计算材料学》, vol. 9, no. 1, pp. 1-9, 2023, doi: 10.1038/s41524-023-01023-6.

[34]  J. Schmidt, H. C. Wang, G. Schmidt, 和 M. A. L. Marques,“通过机器学习引导的非氧化物石榴石高通量搜索”,《npj计算材料学》, vol. 9, no. 1, 2023, doi: 10.1038/s41524-023-01009-4.

[35]  S. Stuart, J. Watchorn, 和 F. X. Gu,“使用聚合生物材料的分子机器学习调整特征描述符的大小”,《npj计算材料学》, vol. 9, no. 1, pp. 1-10, 2023, doi: 10.1038/s41524-023-01040-5.

[36]  N. Kazeev 等人,“用于机器学习二维材料缺陷性质的稀疏表示”,《npj计算材料学》, vol. 9, no. 1, pp. 1-10, 2023, doi: 10.1038/s41524-023-01062-z.

[37]  C. Liu 等人,“使用机器学习在重症监护室早期预测MODS干预”,《大数据杂志》, vol. 10, no. 1, 2023, doi: 10.1186/s40537-023-00719-2.

[38] Q. Pan, F. Harrou, and Y. Sun, “臭氧污染预测的机器学习方法比较”,《大数据学报》,第 10 卷,第 1 期,2023年,doi: 10.1186/s40537-023-00748-x。

[39] Z. Babović 等人,“使用机器学习和大数据进行以自然为导向的土木工程和相关科学领域的计算密集型模拟研究:开放问题概述”,《大数据学报》,第 10 卷,第 1 期,2023年,doi: 10.1186/s40537-023-00731-6。

[40] Y. Suh, 基于机器学习的家电租赁业务中的客户流失预测,第 10 卷,第 1 期,Springer International Publishing,2023年,doi: 10.1186/s40537-023-00721-8。

[41] B. Albreiki, T. Habuza, 和 N. Zaki,“使用机器学习和图卷积网络模型提取拓扑特征以识别风险学生”,《高等教育技术与卓越教育国际期刊》,第 20 卷,第 1 期,pp. 1-22,2023年,doi: 10.1186/s41239-023-00389-3。

[42] Z. Babović 等人,“使用大数据和机器学习在土木工程和地球科学中教授处理复杂问题:协同四种不同的计算范式和四个不同的管理领域”,《大数据学报》,第 10 卷,第 1 期,2023年,doi: 10.1186/s40537-023-00730-7。

[43] A. Sharma, N. Hooda, N. R. Gupta, 和 R. Sharma,“高效的RIEV: 基于集成机器学习的乳腺癌病例预测的新框架”,《网络建模分析与医疗信息学生物信息学国际期刊》,第 12 卷,第 1 期,2023年,doi: 10.1007/s13721-023-00424-3。

[44] X. Wu 和 Z. Liu,“基于机器学习的紧急逆向舆情传播研究”,《计算智能系统国际期刊》,第 16 卷,第 1 期,2023年,doi: 10.1007/s44196-023-00254-1。

[45] Z. Liu 和 X. Wu,“基于机器学习和社交网络分析的在线舆论演化机制及其发展阶段的结构分析”,《计算智能系统国际期刊》,第 16 卷,第 1 期,2023年,doi: 10.1007/s44196-023-00277-8。

[46] J. Wang, M. Li, Q. Diao, H. Lin, Z. Yang 和 Y. J. Zhang,“基于层次注意力胶囊网络的生物医学文件分类”,《BMC生物信息学》,第 21 卷,第 13 期,pp. 1-20,2020年,doi: 10.1186/s12859-020-03673-5。