使用matplotlib或seaborn绘制火山图,横轴为log2 fold change,纵轴为-log10(p-value),通过颜色区分显著性,并添加阈值线和基因标注以增强可视化效果。

在Python中绘制火山图(Volcano Plot)通常用于展示基因表达分析中的差异表达基因,横轴表示变化倍数(log2 fold change),纵轴表示统计显著性(-log10 p-value)。最常用的方法是使用 matplotlib 或 seaborn 库来实现。
1. 准备数据
假设你有一个包含以下列的Pandas DataFrame:
- gene_name:基因名称
- log2fc:log2 fold change
- pvalue:p-value
你可以添加一列 -log10(pvalue) 用于Y轴,并设定阈值判断是否显著。
2. 使用 matplotlib 绘制火山图
示例代码:
立即学习“Python免费学习笔记(深入)”;
import pandas as pd import numpy as np import matplotlib.pyplot as plt模拟数据
np.random.seed(42) data = pd.DataFrame({ 'genename': [f'Gene{i}' for i in range(1000)], 'log2fc': np.random.normal(0, 1, 1000), 'pvalue': np.random.uniform(0, 0.05, 1000) })
计算 -log10(pvalue)
data['neg_log10_pval'] = -np.log10(data['pvalue'])
设置显著性和变化倍数的阈值
log2fc_threshold = 1 pval_threshold = 0.05 data['significance'] = ( (data['pvalue'] < pval_threshold) & (abs(data['log2fc']) > log2fc_threshold) )
开始绘图
plt.figure(figsize=(8, 6)) for label, group in data.groupby('significance'): color = '#d32f2f' if label else '#757575' label_name = 'Significant' if label else 'Not Significant' plt.scatter(group['log2fc'], group['neg_log10_pval'], c=color, label=label_name, alpha=0.7, s=10)
plt.axvline(x=log2fc_threshold, color='black', linestyle='--', linewidth=1) plt.axvline(x=-log2fc_threshold, color='black', linestyle='--', linewidth=1) plt.axhline(y=-np.log10(pval_threshold), color='black', linestyle='--', linewidth=1)
plt.xlabel('log2 Fold Change') plt.ylabel('-log10(P-value)') plt.title('Volcano Plot') plt.legend() plt.grid(False) plt.tight_layout() plt.show()
3. 使用 seaborn 增强可视化效果
你也可以用 seaborn 来提升美观度:
import seaborn as snsplt.figure(figsize=(8, 6)) sns.scatterplot( data=data, x='log2fc', y='neg_log10_pval', hue='significance', palette={True: '#d32f2f', False: '#757575'}, alpha=0.7, s=20, legend=True )
plt.axvline(x=log2fc_threshold, color='black', linestyle='--') plt.axvline(x=-log2fc_threshold, color='black', linestyle='--') plt.axhline(y=-np.log10(pval_threshold), color='black', linestyle='--')
plt.xlabel('log2 Fold Change') plt.ylabel('-log10(P-value)') plt.title('Volcano Plot with Seaborn') plt.show()
4. 高亮特定基因
如果你想标注某些关键基因:
# 举例高亮前5个显著基因
top_genes = data[data['significance']].head(5)
for _, row in top_genes.iterrows():
plt.annotate(row['gene_name'],
(row['log2fc'], row['neg_log10_pval']),
fontsize=8,
ha='right')
基本上就这些。通过设置阈值、颜色区分和简单注释,就能清晰展示哪些基因差异表达显著。不复杂但容易忽略细节,比如对数转换和合理缩放坐标轴。根据实际数据调整参数即可。











