Python 是区块链链上数据分析的主流工具,核心包括高效获取数据(如用 web3.py 连接 Infura 获取区块交易)、清洗转换(解析 input 字段、过滤合约创建、标注地址标签)、构建关系图谱(NetworkX 分析资金网络)及时间序列可视化(pandas + plotly 监控活跃度与事件响应)。

Python 是区块链链上数据分析的主流工具,尤其适合处理以太坊、比特币等公链的交易、地址、合约调用等结构化数据。核心在于高效获取原始链上数据、清洗转换为分析友好的格式,并通过可视化揭示行为模式、资金流向与网络结构。
链上数据获取:从 API 到本地节点
多数项目无需自建全节点,优先使用成熟 API 服务。以太坊常用 Infura、Alchemy 或 OpenBlock;比特币可用 Blockstream API 或 Mempool.space。关键点是理解返回数据结构(如 transaction 字段嵌套 input、logs、trace),并设置合理请求频率与错误重试机制。例如用 web3.py 连接 Infura 获取某区块所有交易:
- 安装:pip install web3
- 初始化 Web3 实例时指定 HTTPS endpoint,并检查 w3.is_connected() 确保连接有效
- 调用 w3.eth.get_block(block_number, full_transactions=True) 获取完整交易列表
- 对每笔交易解析 to(目标地址)、value(ETH 转账量)、input(合约调用数据)字段
数据清洗与特征工程:识别真实行为
原始链上数据噪声大。常见干扰包括:空投刷量地址、合约内部转账、高频机器人交易。清洗重点在区分“用户主动行为”与“协议自动执行”。建议步骤:
- 过滤掉 to=None 的合约创建交易(除非研究部署行为)
- 用 etherscan.io 或 4byte.directory 解析 input 字段,识别函数签名(如 0xa9059cbb = transfer(address,uint256))
- 合并同一地址在短时间内的多笔小额转账,判断是否为“拆单出金”行为
- 为每个地址标注标签:CEX 入金地址、稳定币发行方、知名 DeFi 协议合约等(可复用 ethereum-lists 开源地址库)
链上关系图谱构建:用 NetworkX 分析资金网络
把地址当作节点、转账当作有向边,能直观发现中心化枢纽或异常聚集。适合用 networkx + matplotlib 或 plotly 绘制:
立即学习“Python免费学习笔记(深入)”;
- 仅保留大于 0.1 ETH 的转账边,避免图谱过密
- 节点大小映射该地址总流入/流出金额,颜色区分地址类型(蓝色=普通EOA,红色=合约,绿色=已知 CEX)
- 计算关键指标:入度(接收次数)、出度(发起次数)、PageRank 值(资金中转重要性)
- 导出子图:提取某巨鲸地址 2 跳内所有关联地址,观察其资金辐射范围
时间序列可视化:监控链上活跃度与周期规律
用 pandas 按小时/天聚合交易数、独立地址数、Gas 消耗量,再用 plotly.express 绘制交互图表:
- 叠加多个指标曲线(如日交易数 vs 日新增地址),识别增长拐点是否由新协议上线驱动
- 用滚动平均(7 天)平滑短期波动,突出长期趋势
- 标记已知事件时间点:如 Ethereum Merge 时间、某热门 NFT 发售日,验证链上响应延迟
- 导出为 HTML 可交互图表,支持缩放、悬停查看具体数值










