恶意软件检测数据集
我的研究方向事安卓恶意软件检测,所以我说的恶意软件检测大多数情况下默认指安卓恶意软件检测(如果是windows、物联网恶意软件我会特别说明)
恶意软件检测这个研究方向的数据集和常规的深度学习应用研究方向(例如入侵检测、apt检测)基本采用标准数据集来进行科研工作不同。
恶意软件检测的数据集大多数论文都是自己构建,从各种公开良性、恶意的apk网站或者apk数据集网站下载并组合成自己的数据集。
所以构建自己的数据集是大部分人的科研第一步
目前所知的恶意软件检测的公开apk数据集和网站
Drebin
- drebin(恶意apk)
- 数据集内容:安卓恶意软件5000个(也有良性apk,但是大多数人用的少)
- apk收集时间:2010 年 8 月至 2012 年 10 月
- 2012 好老的数据集(但是经典,基本是个论文都用)
- 创造者:Arp et al.
- drebin压缩包解压密码:infected
- 大小:5.05 GB(拷给我的文件大小)
- The Drebin Dataset
CIC-MalDroid2020
- CIC-MalDroid2020:(恶意+良性apk)
- apk收集时间:2017年12月-2018年12月
- 官网的介绍:
- 我们设法从多个来源收集了超过 17,341 个 Android 样本,包括 VirusTotal 服务、Contagio 安全博客、AMD、MalDozer 以及最近研究贡献使用的其他数据集(论文中引用了这些来源)。我们提供了一个新的 Android 恶意软件数据集,即 CICMalDroid 2020,它具有以下四个属性:
- 大。它拥有超过 17,341 个 Android 样本。
- 最近。它包括 2018 年之前的最新和复杂的 Android 示例。
- 多样化。它包含涵盖五个不同类别的样本:广告软件、银行恶意软件、SMS 恶意软件、风险软件和良性软件
- 全面。与公开可用的数据集相比,它包括最完整的捕获静态和动态特征。
- 官方网页:
- 具体文件和下载链接:
- Adware.tar.gz 2020-07-26 21:26 1.8G
- Banking.tar.gz 2020-07-27 21:36 3.6G
- Benign.tar.gz 2020-07-27 17:42 48G
- Riskware.tar.gz 2020-07-26 21:52 16G
- SMS.tar.gz 2020-07-26 21:21 1.2G
CIC-AndMal2017
- CIC-AndMal2017(恶意apk)
- 大小:1.50 GB(拷给我的文件大小)
- Android Malware 2017 | Datasets | Research | Canadian Institute for Cybersecurity | UNB
- 分类
- Adware
- Ransomware(勒索软件)
- Scareware(安全软件)
- SMS Malware(短信恶意软件)
VirusShare
- VirusShare(恶意apk)
- 这个数据集提供大量恶意apk,官网下载需要申请且慢,有人将其做成了BT种子下载链接(建议用BT下载)
- 需要发邮件申请才能下载:VirusShare.com
- 一个收集VirusShare样本torrent的网站:VirusShare BitTorrent Tracker: 5.7.6.0/2.1.4
- 自己申请到的账户:VirusShare申请账户
androzoo
- androzoo
- 介绍:收集了上千万个apk,每个apk都经过多种反病毒引擎扫描并记录报毒引擎个数。作为自己的良性apk数据集的组成部分is very good
- androzoo官网
- 下载需要发邮件申请(很简单也很快)
- 下载方法:官网给了
- 先在androzoo/lists下载latest.csv(包含androzoo的所有apk索引和具体信息的列表文件(因为apk数量巨大,用excel打开不能完全显示,建议自己写程序筛选子集查看))
- 根据apk的sha256组合你申请到的key组合成http下载链接用于下载apk
- 当然:以上步骤我自己写了个程序实现,只需指定latest.csv位置和key值,再修改apk筛选条件即可实现下载,→GitHub - czc6666/AndroZoo_Download: AndroZoo数据集下载程序 筛选超大csv文件 制作下载链接 多线程下载 apk文件 安卓恶意代码数据集
AMD
- AMD
- 上面那些够用了所以这个数据集没怎么看
自己的数据集
其他研究方向
CIC IDS 2017
- 入侵检测数据集
- 类型:网络异常流量
- 官网有5天的流量数据,大概有50g,为什么这个数据集只有1.5g
- CIC-IDS2017介绍,加拿大网络安全研究所
- 找的百度网盘链接:百度网盘 请输入提取码
- 官网下载链接:Index of /CICDataset/CIC-IDS-2017/Dataset