Python中如何实现代码审计？AST遍历方法-Python教程-PHP中文网

Python中如何实现代码审计？AST遍历方法

看不見的法師

发布： 2025-07-04 09:43:02

原创

235人浏览过

ast遍历在代码审计中的核心价值在于通过解析源代码为树状结构，从而程序化访问语法节点并识别潜在问题。1. 它能精准检测安全漏洞，如 eval、exec 等危险函数调用及其参数来源；2. 用于代码质量检查，如未使用变量、复杂嵌套、过长函数等；3. 支持api误用或废弃api的识别；4. 实现架构合规性验证模块导入规则；5. 提供重构建议，识别可优化代码块。相比正则表达式，ast具备上下文理解能力，避免误报漏报，能处理嵌套结构，并构成语义分析基础。但其挑战包括动态行为无法覆盖、数据流控制流分析复杂、规则构建维护成本高、跨文件分析受限及性能开销等问题。

Python中如何实现代码审计？AST遍历方法

Python代码审计，如果想深入到代码的骨架去分析，AST（抽象语法树）遍历无疑是一个非常核心且强大的方法。它能让我们摆脱基于文本匹配的局限性，真正理解代码的结构和意图，从而发现潜在的安全漏洞、代码质量问题或是违反规范的地方。

AST遍历实现代码审计的核心，在于将源代码解析成一棵树状结构，这棵树的每个节点都代表了代码中的一个语法构造，比如一个函数定义、一个变量赋值、一个表达式或者一个语句。通过遍历这棵树，我们可以程序化地访问代码的每一个组成部分，并针对特定的节点类型或模式进行检查。

比如，我想找出所有直接使用 eval() 函数的地方，或者检查是否存在不安全的 pickle.loads() 调用，又或者想知道哪些函数调用了外部命令执行的模块。这些都可以通过定义一套访问规则，然后让一个“审计机器人”去遍历AST来完成。它比简单的文本搜索要智能得多，因为它理解上下文，不会被注释里的 eval 字符串迷惑，也不会错过那些隐藏在复杂表达式里的真正调用。

立即学习“Python免费学习笔记（深入）”；

AST遍历在哪些代码审计场景中特别有效？

AST遍历在很多代码审计场景中都展现出其独特的价值，尤其是当我们需要深入理解代码的结构和语义时。想想看，如果只是用正则表达式去搜索 eval( 这样的字符串，你可能会漏掉那些被别名导入的 exec 调用，或者误报注释里的 eval 关键字。但AST，它看到的是一个实实在在的函数调用节点，不管这个函数叫什么名字，只要它最终解析到 eval 这个内置函数，AST就能识别。

举几个例子：

安全漏洞检测：这是最直接的应用。比如，检查是否存在任意代码执行的风险（如 eval(), exec(), pickle.loads()），或者不安全的外部命令执行（subprocess.run(), os.system()）。AST能帮助我们定位到这些敏感函数的调用点，甚至可以进一步分析它们的参数来源，判断是否存在用户可控的输入，从而识别潜在的注入点。

import ast

code = """
def dangerous_func(data):
    exec(data)

def safe_func():
    print("Hello")

user_input = "print('Malicious!')"
dangerous_func(user_input)
"""

class DangerousCallVisitor(ast.NodeVisitor):
    def visit_Call(self, node):
        if isinstance(node.func, ast.Name) and node.func.id in ['eval', 'exec', 'pickle.loads']:
            print(f"潜在的危险调用 '{node.func.id}' 在行 {node.lineno}, 列 {node.col_offset}")
        self.generic_visit(node)

tree = ast.parse(code)
visitor = DangerousCallVisitor()
visitor.visit(tree)

登录后复制

这段代码就是一个简单的例子，它能检测到 exec 的调用。

代码质量与规范检查：比如，检测未使用的变量、过长的函数、过多的嵌套层级、复杂的条件表达式。这些都是影响代码可读性和可维护性的因素。AST能轻松地统计函数内的语句数量、循环深度，或者找出那些只被赋值却从未被引用的变量。
API误用或废弃API检测：如果你的项目规定不能使用某些旧的或不推荐的API，或者必须使用特定的新API，AST可以遍历所有函数调用，检查它们是否符合要求。
架构合规性：在大型项目中，可能有一些架构上的约束，比如某些模块不能直接导入其他特定模块，或者数据库操作必须通过ORM层。AST可以检查导入语句、函数调用链，确保代码遵循这些高层次的架构规则。
重构建议：识别出可以提取成独立函数的代码块、重复的代码模式，或者可以简化表达式的地方。

AST相比正则表达式有哪些优势？

谈到代码分析，很多人可能首先想到正则表达式。但说实话，在处理代码这种结构化文本时，正则表达式的局限性是显而易见的，甚至可以说它是一种“错配”。AST（抽象语法树）的优势，恰恰在于它理解代码的“语言”，而不是仅仅把它当作一串字符。

最大的区别在于：上下文和结构感知能力。

语法正确性与上下文理解：正则表达式只是匹配字符模式。它不知道什么是变量，什么是函数，什么是字符串字面量，什么是注释。比如，你想找所有 open() 函数的调用，一个简单的 open\( 可能会匹配到 my_file.open(，甚至注释里的 open 字样。但AST不会。它知道 open 是一个函数名，它会找到那个表示函数调用的 Call 节点，并且知道这个 Call 节点的 func 属性指向的是一个名为 open 的 Name 节点。它理解代码的语法结构，所以它能准确地定位到真正的函数调用。
避免误报和漏报：正则表达式很容易产生误报（False Positives）和漏报（False Negatives）。例如，你想找出所有对 eval 的使用，但如果代码是 import os; my_eval = os.eval; my_eval("...")，正则表达式可能就无能为力了。但AST，配合一些符号解析（虽然这超出了纯粹的AST遍历范畴，但AST是其基础），可以追踪变量的赋值和引用，从而发现这种间接调用。反之，它也不会把 eval 字符串（比如 print("This is eval test")）当成真正的 eval 调用。
处理嵌套和复杂结构：代码充满了嵌套，比如函数内部的函数、条件语句内部的循环、复杂的表达式。正则表达式在处理这种深层次的嵌套结构时会变得异常复杂，甚至不可能完成。而AST天生就是一棵树，你可以轻松地递归遍历，进入任何深度的嵌套结构，访问其内部的节点。比如，你想找到所有在 if 语句内部调用的 os.system，用AST简直是小菜一碟，因为它能识别 If 节点，然后在其 body 内部继续查找 Call 节点。
语义分析的基础：AST是进行更高级语义分析的基础，例如数据流分析、控制流分析。通过AST，我们可以知道一个变量在哪里被定义、在哪里被使用、它的值可能来源于哪里。这些是正则表达式根本无法触及的领域。

简单来说，正则表达式是“文本匹配”，而AST是“代码理解”。如果你只是想在代码里找个字符串，正则表达式够用；但如果你想理解代码在做什么，找出潜在的问题，那非AST莫属。

使用AST进行代码审计有哪些挑战和局限性？

尽管AST遍历在代码审计中表现出色，但它并非万能药，也面临着一些不小的挑战和固有的局限性。理解这些，能帮助我们更现实地看待它的能力边界，并决定何时需要结合其他工具或方法。

动态性与运行时行为：Python是一门非常动态的语言。代码可以在运行时生成、修改甚至执行（比如 exec()、eval()）。AST分析是静态的，它只能看到代码在被解析时的样子。对于那些在运行时才形成的字符串、通过反射调用的函数、或者复杂的元编程技巧，AST是无能为力的。它无法预测运行时变量的值，也无法追踪数据在程序执行过程中的流动。这就是为什么纯粹的AST分析会产生误报（False Positives）和漏报（False Negatives）的原因之一——它缺乏运行时的上下文信息。
数据流和控制流分析的复杂性：虽然AST是进行数据流和控制流分析的基础，但AST本身并不直接提供这些信息。要实现“一个变量的值是否来源于用户输入”这样的判断，你需要在AST之上构建复杂的数据流分析引擎。这涉及到追踪变量的定义、赋值、传递，以及函数调用的参数传递。这是一个非常复杂且计算密集型的任务，远远超出了简单的AST遍历。
规则构建的难度和维护成本：要有效利用AST进行审计，你需要定义一套清晰、准确的规则来识别问题模式。这些规则通常需要深入理解Python的语法结构、常见的漏洞模式，甚至特定框架的特性。构建这些规则本身就是一项技术活，而且随着代码库的演进、新漏洞的出现，这些规则也需要不断地更新和维护。一个不完善的规则集，可能导致大量的误报（噪音太大）或者关键的漏报。
跨文件/模块分析的挑战：AST通常是针对单个文件或单个模块进行解析的。如果一个潜在的问题涉及到多个文件之间的交互（比如一个函数在一个文件里定义，但在另一个文件里被调用，且参数来源于用户输入），那么简单的单文件AST遍历就无法胜任了。你需要一个更高级的分析框架，能够构建整个项目的AST，并进行跨文件的符号解析和调用图分析。
性能问题：对于非常大的代码库，解析所有文件并构建AST，然后遍历这些庞大的树结构，可能会消耗大量的内存和CPU资源。虽然Python的 ast 模块效率很高，但在海量代码面前，性能仍然是一个需要考虑的因素。

总的来说，AST是进行代码结构分析和模式匹配的利器，它让我们能“看透”代码的表象，理解其深层结构。但它更像是一个强大的“显微镜”，能够帮助我们发现静态代码中的“病灶”。然而，要诊断出真正的“病因”（比如一个实际可利用的漏洞），往往还需要结合其他更高级的分析技术，比如污点分析、符号执行等，而这些技术通常都是以AST为基础构建的。

以上就是Python中如何实现代码审计？AST遍历方法的详细内容，更多请关注php中文网其它相关文章！