专栏名称: 鸿洋
你好,欢迎关注鸿洋的公众号,每天为您推送高质量文章,让你每天都能涨知识。点击历史消息,查看所有已推送的文章,喜欢可以置顶本公众号。此外,本公众号支持投稿,如果你有原创的文章,希望通过本公众号发布,欢迎投稿。
目录
相关文章推荐
鸿洋  ·  从ZIP文件看包体积优化 ·  5 天前  
鸿洋  ·  Android 认识AMS与App端框架 ·  6 天前  
51好读  ›  专栏  ›  鸿洋

学完ASM Tree api,再也不怕hook了

鸿洋  · 公众号  · android  · 2024-09-06 08:35

主要观点总结

本文介绍了使用ASM的tree api进行对匿名线程的hook操作,包括ASM背景介绍、class文件结构、方法指令集、实战部分等内容。

关键观点总结

关键观点1: ASM介绍

ASM是一个可以编译字节码的工具,能够编辑class文件,方便进行后续工作。

关键观点2: class文件结构

class文件从二进制角度可分为多个部分,ASM把这些结构进行了进一步抽象,例如把class抽象为classNode类,把方法抽象为MethodNode等。

关键观点3: 实战部分

通过修改Thread的构造函数签名和插入操作数栈的方式,实现了给匿名线程赋予名字的目的。


正文


本文作者


作者:Pika

链接:

https://juejin.cn/post/7121643784638562317

本文由作者授权发布。


1
背景


看完本章,你将会学习到用ASM的tree api进行对匿名线程的hook操作,同时也能够了解到asm相关的操作和背景知识介绍!对于ASM插桩来说,可能很多人都不陌生了,但是大多数可能都停留在core api上,对于现在市面上的一些插桩库,其实很多都用tree api进行编写了,因为tree api的简单与明了的特性,也越来越成为许多开源库的选择。(ASM有两套api类型,分别是core 和 tree)



2
ASM介绍


ASM其实就是一个可以编译字节码的工具,比如说我们日常开发会引入很多的类库对不对,又或者说我们的项目太大了,想修改某个点的时候,统一修改容易出错(比如隐私合规问题等),这个时候如果能有一个工具对生成后的class文件进行编辑的话,就非常方便我们进行后续的工作了。


本章主要介绍tree api,下文所说的ASM都是指tree api的操作哦,对于core api的介绍可以查看笔者曾经写过的文章Spider

https://juejin.cn/post/7100086790639337508


class文件


我们常说的class文件,其实从二进制的角度出发,无非是分成以下几个部分: 



 可以看到,一个class文件其实就是由上图中的多个部分组成,而ASM,就是把这些结构进行了更进一步的抽象,对于class文件,其实就是抽象成asm中的class node类。



对于一个class文件来说,通过以下就可以进行唯一性识别,分别是:version(版本),access(作用域,比如private等修饰符),name(名称),signature(泛型签名),superName(父类),interfaces(实现的接口),fields(当前的属性),methoss(当前的方法)。所以如果想要修改一个class,我们修改对应的classNode即可。


fields


属性,也是类非常重要的一部分,在字节码中,是如此定义的。



对于一个属性,ASM将其抽象为FieldNode。



对于一个属性field来说,通过以下就可以进行唯一性识别:access(作用域,跟class结构一样,比如private修饰),name(属性名称),desc(签名),signature(泛型签名),value(当前对应的数值)


methods


相比于属性,我们的方法结构更为复杂 。



相比于属性的单一,一个方法可能由多条指令组成,一个方法的成功执行,也涉及到局部变量表跟操作数栈的配合。ASM中把方法抽象成这样一个定义 方法 = 方法头+方法体


• 方法头:即标识一个方法的基本属性,包括:access(作用域),name(方法名),desc(方法签名),signature(泛型签名),exceptions(方法可以抛出的异常) 



• 方法体:相比于方法头,方法体的概念其实就比较简单了,其实方法体就是方法的各条指令的集合,主要包括instrutions(方法的指令集),tryCatchBlocks(异常的节点集),maxStack(操作数栈的最大深度),maxLocals(本地变量表的最大长度) 



可以看到,方法其中的InsnList对象,是特指方法的指令集的抽象,这里继续讲解。


InsnList


public class InsnList implements Iterable<AbstractInsnNode{
    private int size;
    private AbstractInsnNode firstInsn;
    private AbstractInsnNode lastInsn;
    AbstractInsnNode[] cache;
    ...

可以看到,主要的对象就是firstInsn,与lastInsn,代表着方法指令集的头指令与尾指令,每一个指令其实都被抽象成了AbstractInsnNode的子类,AbstractInsnNode定义了一条指令最基础的信息,我们可以看看这个类的子类。



这里我们再看看我们最常用的methodInsnNode


public class MethodInsnNode extends AbstractInsnNode {

  /**
   * The internal name of the method's owner class (see {@link
   * org.objectweb.asm.Type#getInternalName()}).
   *
   * 

For methods of arrays, e.g., {@code clone()}, the array type descriptor.
   */


  public String owner;

  /** The method's name. */
  public String name;

  /** The method's descriptor (see {@link org.objectweb.asm.Type}). */
  public String desc;

  /** Whether the method's owner class if an interface. */
  public boolean itf;


这个就是一个普通方法指令最根本的定义了,owner(方法调用者),name(方法名称),desc(方法签名)等等,他们都有着相似的结构,这个也是我们接下来会实战的重点。


Signature


嗯!我们最后介绍一下这个神奇的东西!不知道大家在看介绍的时候,有没有一脸疑惑,这个我解释为泛型签名,这个跟desc(函数签名)参数有什么区别呢?当然,这个不仅仅在函数上有出现,在属性,类的结构上都有出现!是不是非常神奇!


其实Signature属性是在JDK 1.5发布后增加到了Class文件规范之中,它是一个可选的定长属性, 可以出现于类、属性表和方法表结构的属性表中。我们想想看,jdk1.5究竟是发生什么了!其实就是对泛型的支持,那么1.5版本之前的sdk怎么办,是不是也要进行兼容了!所以java标准组就想到了一个折中的方法,就是泛型擦除,泛型信息编译(类型变量、参数化类型)之后 都通通被擦除掉,以此来进行对前者的兼容。那么这又导致了一个问题,擦除的泛型信息有时候正是我们所需要的,所以Signature就出现了,把这些泛型信息存储在这里,以提供运行时反射等类型信息的获取!实际上可以看到,我们大部分的方法或者属性这个值都为null,只有存在泛型定义的时候,泛型的信息才会被存储在Signature里面。


3
实战部分


好啦!有了理论基础,我们也该去实战一下,才不是口水文!以我们线程优化为例子,在工作项目中,或者在老项目中,可能存在大多数不规范的线程创建操作,比如直接new Thread等等,这样生成的线程名就会被赋予默认的名字,我们这里先把这类线程叫做“匿名线程”!当然!并不是说这个线程没有名字,而是线程名一般是“Thread -1 ”这种没有额外信息含量的名字,这样对我们后期的线程维护会带来很大的干扰,时间长了,可能就存在大多数这种匿名线程,有可能带来线程创建的oom crash!所以我们的目标是,给这些线程赋予“名字”,即调用者的名字。


解决“匿名”Thread


为了达到这个目的,我们需要对thread的构造有一个了解,当然Thread的构造函数有很多,我们举几个例子。


public Thread(String name{
    init(nullnull, name, 0);
}


public Thread(ThreadGroup group, String name{
    init(groupnull, name, 0);
}


可以看到,我们Thread的多个构造函数,最后一个参数都是name,即Thread的名称,所以我们的hook点是,能不能在Thread的构造过程,调用到有name的构造函数是不是就可以实现我们的目的了!我们再看一下普通的new Thread()字节码。



那么我们怎么才能把new Thread()的方式变成 new Thread(name)的方式呢?很简单!只需要我们把init的这条指令变成有参的方式就可以了,怎么改变呢?其实就是改变desc!方法签名即可,因为一个方法的调用,就是依据方法签名进行匹配的。我们在函数后面添加一个string的参数即可。


node是methidInsnNode
def desc =
        "${node.desc.substring(0, r)}Ljava/lang/String;${node.desc.substring(r)}"
node.desc = desc


那么这样我们就可以完成了吗,非也非也,我们只是给方法签名对加了一个参数,但是这并不代表我们函数就是这么运行的!因为方法参数的参数列表中的string参数我们还没放入操作数栈呢!那么我们就可以构造一个string参数放入操作数栈中,这个指令就是ldc指令啦!asm为我们提供了一个类是LdcInsnNode,我们可以创建一个该类对象即可,构造参数需要传入一个字符串,那么这个就可以把当前方法的owner(解释如上,调用者名称)放进去了,是不是就达到我们想要的目的了!好啦!东西我们有了,我们要在哪里插入呢?



所以我们的目标很明确,就是在init指令调用前插入即可,asm也提供了insertBefore方法,提供在某个指令前插入的便捷操作。


method.instructions.insertBefore(
        node,
        new LdcInsnNode(klass.name)
)


我们看看最后插入后的字节码。



当然,我们插入asm代码一般是在android提供给我们的Transform阶段进行的(agp新版有改变,但是大体工作流程一致),所以我们在transfrom中为了避免对类的过度干扰,我们还需要把不必要的阶段提早剔除!比如我们只在new Thread操作,那么就把非Opcodes.INVOKESPECIAL的操作过滤即可。还有就是非init阶段(即非构造函数阶段)或者owner不为Thread类就可以提前过滤,不参与更改即可。


那我们看到完整的代码(需要在Transform中执行的代码)


static void transform(ClassNode klass) {
    println("ThreadTransformUtils")
    // 这里只处理Thread
    klass.methods?.forEach { methodNode ->
        methodNode.instructions.each {
            // 如果是构造函数才继续进行
            if (it.opcode == Opcodes.INVOKESPECIAL) {
                transformInvokeSpecial((MethodInsnNode) it, klass, methodNode)
            }
        }
    }

}


private static void transformInvokeSpecial(MethodInsnNode node, ClassNode klass, MethodNode method) {
    // 如果不是构造函数,就直接退出
    if (node.name != "" || node.owner != THREAD) {
        return
    }
    println("transformInvokeSpecial")
    transformThreadInvokeSpecial(node, klass, method)

}

private static void transformThreadInvokeSpecial(
        MethodInsnNode node,
        ClassNode klass,
        MethodNode method
) {
    switch (node.desc) {
    // Thread()
        case "()V":
            // Thread(Runnable)
        case "(Ljava/lang/Runnable;)V":
            method.instructions.insertBefore(
                    node,
                    new LdcInsnNode(klass.name)
            )
            def r = node.desc.lastIndexOf(')')
            def desc =
                    "${node.desc.substring(0, r)}Ljava/lang/String;${node.desc.substring(r)}"
            // println(" + $SHADOW_THREAD.makeThreadName(Ljava/lang/String;Ljava/lang/String;) => ${this.owner}.${this.name}${this.desc}: ${klass.name}.${method.name}${method.desc}")
            println(" * ${node.owner}.${node.name}${node.desc} => ${node.owner}.${node.name}$desc: ${klass.name}.${method.name}${method.desc}")
            node.desc = desc
            break
    }


}


最后,看到这里,应该可以了解到asm tree api相关用法与实战了,希望能有所帮助!




最后推荐一下我做的网站,玩Android: wanandroid.com ,包含详尽的知识体系、好用的工具,还有本公众号文章合集,欢迎体验和收藏!


推荐阅读

面试题:为什么使用 Bundle 而不使用 HashMap
Android14 VSync 机制深入解读
为什么大部分程序员都在今年冲软考?


扫一扫 关注我的公众号

如果你想要跟大家分享你的文章,欢迎投稿~


┏(^0^)┛明天见!