专栏名称: 腾讯安全威胁情报中心

御见威胁情报中心，是一个涵盖全球多维数据的情报分析、威胁预警分析平台。依托顶尖安全专家团队支撑，帮助安全分析人员快速、准确对可疑事件进行预警、溯源分析。

sshd后门自动化检测 | BinaryAI在恶意软件检测场景的实践

腾讯安全威胁情报中心 · 公众号 · 科技创业科技自媒体 · 2024-11-12 10:18

主要观点总结

腾讯安全科恩实验室基于BinaryAI的函数语义匹配技术，设计了一套自动化的sshd后门检测方案，用于检测在网络安全中攻击者在sshd身份认证相关函数中植入后门的行为。

关键观点总结

关键观点1: 引言

介绍了sshd后门攻击的背景和面临的挑战，以及传统检测方法的局限性。

关键观点2: sshd后门原理

详细解释了攻击者如何在sshd身份认证函数中插入后门，以及后门常见的行为。

关键观点3: sshd后门检测方法

介绍了腾讯安全科恩实验室设计的基于BinaryAI函数语义匹配技术的自动化检测方案的具体流程，包括BinaryAI引擎分析、身份认证函数提取和后门样本判定。

关键观点4: sshd后门样本发现

通过基于BinaryAI的方法发现了多种类型的sshd后门样本，包括硬编码后门密码、用户密码窃取和回传等。

关键观点5: 讨论

探索了使用大语言模型如GPT-4o-mini检测后门函数的可能性，并讨论了其局限性。

关键观点6: 总结

总结了基于BinaryAI的函数语义匹配技术的sshd后门检测方案的优势和成果。

关键观点7: 附录

提供了sshd身份认证函数集和相关IOC链接，供读者进一步分析和体验。

正文

引言

在网络安全攻防对抗中，攻击者经常通过在系统关键组件中植入后门程序，来获取持久的访问权限。sshd (SSH daemon) 作为管理远程登录的核心服务，是攻击者常用的目标之一。攻击者通过修改或者替sshd二进制文件，绕过原有身份认证机制。这样，他们就能获取对服务器的控制权，并实施各种恶意攻击。

然而，sshd后门的隐蔽性极强。攻击者通常仅对某个身份认证函数进行细微改动，例如增加特定的后门密码条件判断。这些改动往往形式多样，不同攻击者可能采用不同的后门密码，使得传统检测方法面临巨大挑战。

杀毒软件：主流杀毒软件依赖特征码匹配，擅长检测已知的恶意软件模式，如特定字符串、字节序列等。然而，sshd后门的修改往往是语义层面的微小变化，难以通过通用规则进行有效检测，从而难以应对变种后门的识别。
白名单机制：基于sshd白名单的检测方法虽然能够有效防范后门，但在动态业务环境中，由于sshd版本更新、补丁发布或正常业务逻辑引入，可能导致误报。这不仅影响正常用户的使用体验，也使得白名单的维护成本显著增加。
人工分析：依赖安全专家进行人工分析虽然能够准确识别后门样本，但分析过程耗时且成本高昂，难以满足大规模服务器集群的检测需求。

为了克服这些传统方法的局限性，腾讯安全科恩实验室结合BinaryAI的函数语义匹配技术，设计了一套自动化且精准的sshd后门检测方案。基于BinaryAI引擎，该方案包含两阶段分析流程。首先，BinaryAI基于 BAI代码匹配模型，结合函数间语义信息，从全量开源C/C++库中精确检索目标样本的源函数；借助匹配到的源函数名，我们从sshd中提取所有与身份认证相关的函数。接着，通过比较身份认证函数与匹配到的源函数的语义相似度，进一步定位被篡改的后门函数。

基于该检测方案，科恩已成功发现了多个在VirusTotal ^[1] 未被任何引擎检出的sshd后门样本，证明该方案相比传统检测方法更具优势。

sshd后门原理

攻击者通过在sshd身份认证相关函数中插入后门，绕过原有身份认证逻辑。sshd后门常见的行为包括：

设置后门密码，使用该密码可直接成功登录（万能密码）
窃取正常用户的用户名和登录密码，可被攻击者用于横向移动

下面以VirusTotal多家引擎检出的sshd后门样本为例解释后门原理:

https://www. binaryai.cn/analysis/dfc86b375e974b3092bbff41eb24db3281fb4fc104f1043a7afbf95f85a2c1d5

通过“交互式分析”功能，找到该样本的后门藏在 auth_password 函数中，该函数反编译伪代码如下图所示。

43-48行加入了后门密码判断逻辑，如果用户输入的密码等于 SECRETPW （ 0Zm7HF) ，则直接返回1，表示密码认证成功，不进行其他的认证流程。65-73行将正常登录成功的用户名及其密码写入路径为


     
      ILOG

(


     
      /etc/lps

lps

) 文件中，攻击者可利用这些信息进一步密码爆破内网其他服务器，实现横向移动。

观察到该函数由于插入了后门逻辑，BinaryAI检索得到的top-1源函数相似度仅为0.6958，远低于正常函数的top-1相似度（通常为0.85以上）。这说明虽然后门逻辑仅为几行代码的改动，BinaryAI的代码匹配模型依然可以精准感知到代码语义的变化，因此可以设置相似度阈值来检测后门函数。

sshd后门检测方法

为了有效检测 sshd 后门，腾讯安全科恩实验室设计了一种基于BinaryAI函数语义匹配技术的自动化检测方案。该方案能精准地捕捉sshd样本中的后门代码，具体检测流程如下图所示。

3.1.BinaryAI引擎分析

首先，待分析样本会由BinaryAI引擎进行初步分析。BinaryAI通过反编译将二进制代码转换为伪代码，随后基于科恩自研的BAI 代码匹配模型，将每个函数表示为能够表达其语义的高维向量。结合函数的结构化信息，BinaryAI能够从全量开源C/C++库中精准检索与样本函数匹配的源代码函数。BinaryAI引擎的分析结果为后续的后门检测流程提供了基础。

3.2 .身份认证函数提取

理论上，sshd中所有涉及身份认证的函数都可能被攻击者植入后门，因此这类函数均应纳入检测范围。为此，需从待分析样本中提取所有身份认证相关函数。

为了实现这一目标，我们通过对sshd项目源码 ^[2] 的深入分析，汇总了一个包含63个身份认证函数名的集合（见8.附录）。这些函数与身份认证直接相关，极有可能成为后门植入的目标。得益于强大的代码语义表征能力，BinaryAI引擎能够精准地检索到待分析样本中所有函数对应的标准sshd源代码。通过判断匹配到的源码函数名是否在上述集合中，即可筛选出所有潜在的目标函数。

3.3 .后门样本判定

后门样本判定的核心思想是后门函数由于植入了后门代码逻辑，导致与匹配的源代码相似度较低。具体地，我们为每个函数设定相似度阈值，若函数对应的top-1源码相似度低于阈值，则视为后门函数；只要样本中存在至少一个身份认证函数被标记为后门函数，整个样本便被视为后门样本。我们在真实场景收集的大量sshd样本上进行统计分析，为每个身份认证函数设置了特定的阈值，以确保sshd后门检测的准确性。

sshd后门样本发现

基于上述方法，我们回溯了腾讯安全威胁情报、VirusTotal等来源的sshd样本，发现了42个新的sshd后门样本，其中8个样本VirusTotal零引擎检出（见8.附录相关IOC)。新发现的样本基于后门方法可分为以下几类。

（1）auth_password/sys_auth_passwd后门密码硬编码

该样本在 auth_password