2024.11.用于 Android 恶意软件检测的混合 ML-DL 方法

Jan 07, 2025 4:03 AM

Dec 15, 2024 3:30 PM

水文
已发csdn

未命名_image-1.png

用于 Android 恶意软件检测的混合 ML-DL 方法
Hybrid ML-DL Approach for Android Malware Detection

摘要

随着近年来Android恶意软件的激增，对移动安全构成了重大威胁，因此需要创建稳健的检测解决方案。本研究中用于检测Android恶意软件的主要工具是应用权限。Android应用程序请求的权限信息是数据集中区分恶意应用和良性应用的主要信号。通过分析特定权限与恶意软件活动之间的联系开发的机器学习模型，可以将应用程序分类为安全或可能危险。通过使用监督学习方法评估权限模式的预测潜力，所提出的方法提供了一种便携且高效的恶意软件检测解决方案。实验结果表明，该模型可以准确地检测恶意软件，为增强基于权限的Android安全解决方案提供了一种潜在途径。

1. 引言

移动技术的快速发展彻底改变了个人与数字信息的互动方式，导致智能手机及其移动应用在全球范围内广泛使用。然而，移动应用的使用激增也伴随着移动恶意软件的令人担忧的增加（Peiravian & Zhu, 2013），这对用户的安全和隐私构成了相当大的危险。传统的恶意软件识别方法主要依赖于签名分析，由于恶意软件的持续变化和频繁使用混淆措施以逃避检测，这些方法变得越来越无效。为了解决这些问题，机器学习（ML）作为一种潜在有效的技术，已经被广泛用于增强移动恶意软件的识别能力。机器学习模型可以在大型数据集上训练，以识别复杂的模式和关系，这使得它们在识别尚未被发现的恶意软件版本方面具有重要价值（Bulut & Yavuz, 2017）。在这项研究中，我们探讨了四种不同的机器学习技术——随机森林、逻辑回归、人工神经网络（ANN）和分类树——在移动恶意软件检测中的应用。

随机森林因其稳健性以及处理具有高维特征的大型数据集的能力而闻名。通过构建多个决策树并结合它们的预测，随机森林提供了一种强大的技术，用于发现可能表明恶意软件的微小趋势。逻辑回归是一种受欢迎的统计模型，易于理解和应用。尽管其线性特性，但当与精心选择的特征结合时，逻辑回归可以可靠地确定应用是良性还是恶意的。受人脑神经结构启发的人工神经网络（ANN）在与模式检测和分类相关的多种应用中表现出了令人印象深刻的潜力。由于ANN能够从数据中提取复杂的非线性相关性（Rathore et al., 2021），它们特别适用于识别可能挑战传统检测技术的复杂恶意软件。另一种基于决策树的方法是分类树模型，它通过根据特征值将数据集划分为子集来创建类似树的决策模型。通过展示特征如何影响最终的分类选择，这种策略在分类任务中表现良好，并且结果易于理解。这项研究检验了基于从移动应用中提取的特征的不同机器学习模型，以确定它们在识别移动恶意软件方面的有效性（Duan et al., 2024）。通过利用每种模型的优势，我们希望开发一种可扩展且可靠的移动恶意软件检测解决方案，最终提高移动生态系统的安全性。

2. 文献综述

全球范围内，移动恶意软件已成为对移动用户隐私和安全的严重威胁。由于智能手机和移动应用的广泛使用，针对移动平台的恶意软件变种数量也在增加。随着这些危险程序的变化，对可靠和有效的检测方法的需求也在增长。

传统检测方法

传统上，大部分移动恶意软件检测依赖于基于签名的技术，通过独特的模式或签名识别已知的恶意软件。这些技术对已知威胁效果良好，但对零日攻击的防御能力较弱。启发式检测方法通过检查代码结构和行为来寻找可能的危险，但这种方法的静态性质经常导致较高的误报率。而基于行为的检测，通过监控应用的运行时活动，虽然检测率更高，但由于其较高的计算资源需求，不太适合移动设备。

机器学习方法

随着机器学习（ML）的引入，恶意软件检测发生了巨大变化（Sahs & Khan, 2012）。在标记数据集上训练的监督学习方法（Yerima et al., 2014）已显示出检测前所未见的恶意软件的潜力。随机森林、决策树和支持向量机等方法已被广泛应用。在标记数据不足的情况下，非监督和半监督学习方法越来越受欢迎。最近，深度学习模型，如循环神经网络（RNNs）和卷积神经网络（CNNs），由于能够直接从原始数据中学习复杂模式，已被证明在识别复杂和混淆的恶意软件方面更为有效。Peiravian & Zhu（2013）是最早倡导在移动恶意软件检测中使用机器学习的学者之一。他们研究了决策树、支持向量机（SVM）和最近邻（KNN）等多种机器学习算法，以将移动应用分类为良性或恶意。他们的研究表明，当在包括网络流量、权限和API调用等参数上训练时，机器学习模型可以达到高检测准确率。然而，该研究也指出了特征选择和开发可靠模型所需的大型标记数据集的问题。

基于这些发现，Yerima, Sezer, 和 Muttik（2014）对Android设备上的恶意软件检测机器学习方法进行了广泛评估。他们探索了随机森林、支持向量机和朴素贝叶斯等多种分类器，并强调了特征工程在提高检测效率中的重要性。根据他们的研究，集成技术——尤其是随机森林——提供了更好的检测准确性和对各种恶意软件类型的鲁棒性。他们还研究了静态和动态分析方法的应用，并得出结论，结合这两种方法的混合策略可以进一步提高检测率。

混合方法

结合静态和动态分析技术已成为一种常见策略，以利用每种方法的优势。通过同时检查代码和行为，混合模型不仅能成功识别已知威胁，还能提高对未知恶意软件的检测率。集成方法的准确性已得到大幅提高，使其成为对抗移动恶意软件的有效武器。

移动恶意软件检测的挑战

尽管取得了进展，移动病毒检测仍面临许多困难（Bulut & Yavuz, 2017）。为了逃避检测，恶意软件制造者经常使用逃避策略，如多态性和代码混淆。另一个主要问题是移动设备的有限计算能力，因为许多复杂的检测技术需要高处理能力。由于移动恶意软件的多样性和攻击向量的快速发展，找到一个普遍适用的解决方案也是一个挑战。

3. 问题陈述

随着移动应用的迅速传播，移动病毒的数量和多样性呈指数级增长。传统的检测技术未能跟上这些威胁的复杂性，特别是在识别新颖和未知的恶意软件变种方面。为了保护移动用户的隐私和安全，需要先进的检测系统。在本研究中，我们使用机器学习模型来检测移动恶意软件，以克服这一困难。特别是，我们拥有一个包含从恶意和良性移动应用中提取的各种属性的数据集。使用多种机器学习模型，包括随机森林、逻辑回归和人工神经网络（ANN），在此数据集上进行训练并可靠地识别应用程序是良性还是危险，这是主要挑战。这些模型的成功使用将有助于创建更具弹性和效率的移动恶意软件检测系统，这些系统能够与迅速变化的移动威胁环境相适应。本研究还将比较这些模型的性能，以确定哪种策略最适合在现实世界的移动安全框架中实施。

4. 研究目标

本研究的主要目标是创建和评估用于移动病毒检测的机器学习模型。研究集中在实现以下具体目标：

检查和预处理一个包含从有害和良性移动应用中提取的特征的数据集，以确保数据适合训练机器学习模型。
使用各种机器学习模型——随机森林、逻辑回归、分类树和人工神经网络（ANN）（Yerima et al., 2014）——来评估它们在准确分类移动应用为良性或有害方面的表现。
评估不同的特征工程和选择策略如何提高恶意软件检测模型的鲁棒性和准确性（Xiong & Zhang, 2024）。

4. 通过使用多种评估标准，包括准确性、精确性、召回率、F1分数和接收者操作特征曲线下面积（AUC-ROC），分析训练模型的性能，以识别最佳模型用于识别移动恶意软件。

5. 评估每个机器学习模型在移动恶意软件检测方面的优点和缺点，并提出这些模型（Zhao et al., 2018）如何可能在实际移动安全框架中使用的建议。

提出进一步发展和扩展研究的建议，如添加复杂的深度学习方法或在更大更多样化的数据集上使用模型。

5. 提出的方法论

本研究的方法论涉及有组织地创建、完善和评估用于移动恶意软件检测的机器学习模型。以下是需要遵循的步骤：

1. 数据集获取

本研究的数据集来自著名的数据科学竞赛和数据集网站Kaggle。该数据集包括从移动应用中提取的多个元素，并将其分类为良性或恶意。这些特征可以区分合法和恶意活动，包括网络流量、API请求、应用权限和其他相关细节。

2. 数据预处理

数据清洗：首先，删除或填补数据集中的不一致或缺失值。
特征编码：使用诸如独热编码之类的编码方法将分类信息转换为适合机器学习模型的数值格式。
归一化/缩放：确保所有输入都在相似的规模上，特征要么被缩放要么被归一化。这对于逻辑回归和神经网络等算法至关重要。
数据分割：80%的数据集用于训练模型，20%的数据集留作测试。数据集被分为训练和测试子集。训练数据还可以进一步划分为验证集，以微调超参数。

3. 特征工程和选择

特征选择：通过全面的特征选择过程确定哪些属性对于恶意软件检测最为相关。使用方法如随机森林重要性评分和递归特征消除（RFE）来选择最能增强模型预测潜力的特征子集。
降维：必要时，使用主成分分析（PCA）（Bulut & Yavuz, 2017）等方法减少数据集的维度，这可以提高模型效率而不损害准确性。

4. 模型实现

随机森林（RF）：一个强大的集成学习技术，构建多个决策树并将它们组合起来以提高准确性并避免过拟合。使用选定的特征训练RF模型，并使用交叉验证调整最大深度和树的数量。在测试数据集上，RF模型的准确率为96.62462%。
人工神经网络（ANN）：一个多层神经网络深度学习模型，能够识别输入中的复杂模式。创建ANN的输入层、隐藏层和输出层，并使用反向传播进行训练。使用验证集优化架构和超参数（如隐藏层数量、激活函数和学习率）。使用ANN模型同样达到了96.42005%的准确率。
逻辑回归（LR）：这种统计模型使用逻辑函数表示二元结果的可能性。在逻辑回归模型的实现中使用正则化技术以防止过拟合。LR模型以95.90863%的竞争准确率表现优于RF和ANN，尽管它更为简单。
分类树（CL）：分类树是一种机器学习模型，根据特征将数据分割以预测目标类。模型通常以92.36%的准确率正确预测，可能是由于适当的树深度、特征重要性和高质量数据。模型在数据集上的高泛化能力表现在其高准确率上。

5. 模型评估

准确率：准确率是用来衡量模型性能的主要统计量，表示测试集中正确识别的实例百分比。
精确率、召回率和F1分数：使用多个指标评估模型的灵敏度和特异性，包括准确率、精确率（真正例预测与所有预测正例的比率）、召回率（真正例与所有实际正例的比率）和F1分数（精确率和召回率的调和平均值）。
ROC-AUC曲线：对每个模型，通过绘制和分析接收者操作特征曲线下的面积（ROC-AUC），评估不同阈值下真正例率和假正例率之间的权衡。

6. 比较和分析

根据上述标准，比较三个模型——随机森林、ANN和逻辑回归的性能。调查研究了多个方面，包括特征交互、模型复杂性和识别数据中非线性关系的能力，以确定为什么RF和ANN的准确率（96.62462%和96.42005%）略高于LR（95.90863%）。

模型	准确率	精确率	召回率	F1分数
人工神经网络 (ANN)	96.42005%	96.57064%	96.2406%	96.40534%
随机森林 (RF)	96.62462%	96.38024%	96.90476%	96.64179%
逻辑回归 (LR)	95.90863%	95.27163%	96.63265%	95.94732%
分类树 (CL)	92.36277%	90.19355%	95.10204%	92.58278%

还检查了每个模型的计算效率，考虑了准确性和资源使用之间的权衡——特别是在移动设备上部署时。

6. 结论

本研究探讨了使用Kaggle数据集对移动病毒进行检测的机器学习模型（即随机森林（RF）、人工神经网络（ANN）、分类树和逻辑回归（LR））。主要目标是开发、优化和测试这些模型，以评估它们识别移动应用为良性或恶意的效果。结果显示，ANN和RF模型分别获得了96.42005%和96.62462%的准确率，而LR模型稍落后，准确率为95.90863%。分类树模型的准确率为92.36277%。这些发现表明ANN和RF非常适合处理复杂数据集并识别有效恶意软件检测所需的微小模式。尽管LR模型较为简单，但表现良好，当计算效率至关重要时，它是一个不错的选择。

本研究的发现展示了机器学习算法如何通过提供准确可靠的病毒检测来增强移动安全。由于其出色的准确率，ANN和RF模型有潜力在移动安全框架中改善恶意软件的预防和检测。此外，LR模型的竞争性表现显示了它非常适合在资源受限的环境中部署，如移动设备，其中速度和简便性至关重要。

然而，研究也承认某些局限性，包括检测逃避检测的恶意软件的挑战以及模型性能在不同数据集上的可能变化。未来的研究可能通过探索更复杂的深度学习架构、结合混合检测技术，并将这些模型应用于现实世界场景来克服这些限制。

总之，本研究为移动安全这一重要领域的未来研究和发展奠定了基础，展示了机器学习如何有效检测移动恶意软件。随着威胁环境的变化，持续的机器学习研究和创新将是维护移动设备安全和完整性的必需。

摘要