JPL创建PDF档案以帮助恶意软件研究

数字语料库项目是亚马逊网络服务开放数据赞助计划的一部分,庞大的数据档案已被打包成易于下载的zip文件。 ¶来源:Science RF/Adobe

美国国家航空航天局喷气推进实验室(JPL)的数据科学家将800万个PDF文件编译成一个开源档案,以增强在线安全。

这个语料库是国防高级研究计划局(DARPA)安全文件计划的一部分。

专家可以查看这个档案,以查找可能隐藏在文件代码中的恶意软件信息,以帮助预测新兴的在线威胁并增强PDF技术。

研究人员使用公共网络爬行数据存储库Common Crawl来识别要包含在内的PDF,而专门的软件则重新获取被截断的文件。

这个大约8TB的数据集是同类公开数据集中最大的。来自喷气推进实验室的完整文章

摘要版权所有 ©2023 SmithBucklin,华盛顿特区,美国