Skip to content

终端数据挖掘与威胁狩猎

本文资料整理自《Provenance Mining:终端溯源数据挖掘与威胁狩猎》一文,仅作学习与分享,如有侵权请告知,谢谢!

回顾

什么是威胁狩猎?

威胁狩猎(Threat Hunting, TH),通俗地讲,就是以系统会被攻破为假设,进行的一系列数据调查,进而能够识别隐蔽的未知威胁,从而对事件进行溯源和场景重建。最终强化规则、全面地提高安全防护knowledge的过程。

Fig. 威胁狩猎典型范式[1]

这么看似乎和渗透测试一样,也是通过模拟入侵的方式,进而XXXX。但是我们也需要先仔细地了解渗透测试:渗透测试除了定位漏洞外,还需要进一步尝试对漏洞进行攻击利用、提权以及维持对目标系统的控制权。

这样看的话,我们可以总结:

评估方法 以什么为驱动 以什么为假设 以什么为目的
威胁狩猎 数据 系统整体会被攻陷(侧重于数据系统、应用系统本身) 强化系统整体安全规则和安全知识
渗透测试 目标 系统某一些部分会被入侵(更全面,包括人员部分) 强化系统整体,加固系统某些具体部分

溯源数据(Provenance)

面向高级威胁分析场景终端大数据分析,如EDR、集成终端数据的分析平台等应运而生。

溯源数据(Provenance)是终端侧数据的关键组成,当前操作系统(如Linux、Windows等)已具备高线溯源数采集的能力。有效的溯源数据挖掘方法,能够支撑威胁狩猎的多种任务场景。

如下图所示,Provenance能够忠实记录终端上实体的行为逻辑依赖关系,自然形成溯源数据图(Provenance Graph,简称溯源图)。所记录的实体,包括文件(菱形)、网络(椭圆)、进程(矩形)等维度;根据实体对的类型,实体间关系又包括文件读写、进程创建、网络连接等等。在溯源数据完整有效采集的情况下,通过溯源图的后向追溯(backward-trace)和前向追溯(forward-trace),能够有效弥补网络侧的数据盲点,实现攻击事件的溯源与取证。

Fig. 溯源数据图

思考

  • 这里的溯源与传统的应急响应溯源区别在哪里?

  • 一般来说,威胁情报建设,这块的工作常常是在甲方发生,但是现在也有越来越多的甲方在做这一块的事情。

  • 在企业的业务场景下,需要处理数据量是非常大的,传统的应急响应工作,大多需要人工进行分析。对于威胁情报这块的工作,始终明确一点:以数据为驱动。对这一块的研究,其实最终的目的就是实现一个自动化的过程。
  • 相同点是:都针对攻击事件,进行一个完整的入侵手法复原与取证

Reference

[1] Provenance Mining:终端溯源数据挖掘与威胁狩猎,https://mp.weixin.qq.com/s/Te7c3HvCcxX3ci9HTn8lEQ