首页 > 运维 > linux运维 > 正文

huARdb:单细胞水平克隆型-转录组分析的人类抗原受体数据库

絕刀狂花
发布: 2025-07-15 09:40:27
原创
943人浏览过

前言

huARdb:单细胞水平克隆型-转录组分析的人类抗原受体数据库

摘要

人类的适应性免疫系统是免疫反应的一个重要分支,负责识别和清除特定抗原。通过与特定抗原的结合,适应性免疫系统被激活,并能保存对目标抗原的长期免疫记忆。因此,具有高特异性的长期免疫记忆能够在后续抗原暴露中引发更强烈的反应。适应性免疫反应的激活需要T细胞或B细胞上的受体识别抗原,这些受体分别称为T细胞受体(TCR)或B细胞受体(BCR)。

TCR由成对的α和β肽链组成,而BCR由重链和轻链组成,每条链包括可变区(V区)和恒定区(C区)。每个TCR/BCR肽链的V区由可变(V)基因、多样性(D)基因和连接(J)基因的随机重组编码。在T或B细胞发育过程中,V(D)J基因重组为每个T或B细胞上的TCR/BCR产生独特的互补决定区(CDR),从而赋予其特异性。每个TCR/BCR肽链的V区包含CDR1、CDR2和CDR3,其中CDR3在抗原识别中起关键作用。

在T细胞和B细胞成熟过程中,随机的V(D)J基因重组为每个细胞产生独一无二的TCR/BCR,形成人体中高度多样性的TCRs/BCRs库,以应对环境中多样的病原体。单细胞免疫组库分析结合单细胞转录组分析使得在正常和病理条件下对单个TCR/BCR克隆型和功能的高通量研究成为可能。过去产生的大量公开的单细胞免疫组库数据需要深入分析,以揭示更多的免疫学机制。然而,目前尚无方法可以对已发表的单细胞免疫组库数据进行再利用和无偏的整合分析。

huARdb数据库收集了215份单细胞免疫组库数据。这些数据来自493个不同的测序文库,覆盖24种不同组织和12种不同疾病模型。作者通过使用统一的数据处理流程对每个单细胞免疫组库数据进行处理,获得每个数据集的单细胞水平TCR/BCR和转录组特征。作者同时开发了网页以展示数据库中各数据集的转录组相关特征和TCR/BCR相关特征。用户可以在主页上观看操作演示视频,通过疾病、组织类型、细胞类型索引,分析感兴趣的样本。对于单个免疫组库数据集,用户可以查看样本数据的各项转录组特征,例如各亚型细胞在tSNE图上的分布。当用户对某一细胞亚型感兴趣时,可以在网页菜单中选择相应的细胞亚型名称,高亮显示特定亚型的细胞分布。

同时,huARdb还首次开发了克隆型-转录组联合可视化分析方法。通过细胞TCR/BCR特征定义细胞克隆型,用户不仅可以查看各克隆型的细胞频率,还可以分析数据集内高度扩增克隆细胞的转录组特征,例如可以看到和分析每个克隆型内细胞亚型的分布信息,以及在单细胞水平上查看高度扩增克隆型细胞的TCR/BCR信息和转录组信息。

数据库概况

huARdb收集了14个人类单细胞免疫分析数据集,包括GEO、SRA和Genome Sequence Archive,涵盖来自24种组织类型和12种疾病的细胞。收集了231个耦合的scRNA-seq和scV(D)J-seq数据集。经过质量控制和数据过滤后,剩下215个数据集,其中包含444,794个具有成对TCR/BCR链的hcT/B细胞,平均在每个数据集中捕获了2,069个hcT/B细胞和13,493个基因。

通过细胞亚型预测,huARdb对402,557个hcT细胞(90.5%)和42,237个hcB细胞(9.5%)进行了分类:T细胞进一步分为效应记忆CD8+ T细胞、Th1/Th17细胞、调节性T细胞等13种不同的亚型,而B细胞进一步分为naive B细胞、耗竭性B细胞、非转换记忆B细胞、转换记忆B细胞和浆母细胞。

huARdb:单细胞水平克隆型-转录组分析的人类抗原受体数据库

数据处理方法

预处理:使用Cell Ranger (v6.1.0)的默认参数处理耦合的单细胞(sc)RNA-seq和scV(D)J-seq数据。mkgtf函数用于保留编码蛋白序列,mkrefmkvdjref用于对hg38构建索引。scRNA-seq的fastq原始数据使用count获得编码蛋白基因的UMI矩阵,scV(D)J-seq的fastq原始数据使用vdj生成V、(D)、J、C基因使用情况、CDR3序列和TCR/BCR链的UMI计数。

FineVoice语音克隆
FineVoice语音克隆

免费在线语音克隆,1 分钟克隆你的声音,保留口音和所有细微差别。

FineVoice语音克隆 61
查看详情 FineVoice语音克隆

质控过滤:使用Seurat (v4.0.2)去除unique feature counts 20%的细胞,并使用DoubletFinder去除双细胞。

细胞亚型预测:在去除双细胞后,使用Seurat (v4.0.2)将表达矩阵导入为Single Cell Experiment (SCE)对象,然后使用LogNorm-Counts转换为log矩阵。SingleR利用人类T或B细胞参考数据集进行细胞亚型预测。

预测的效应记忆CD8+ T细胞、中心记忆CD8+ T细胞、终末效应CD8+ T细胞和naïve CD8+ T细胞如果表达CD4,则被归类为“未预测”细胞。预测的辅助T细胞(Th细胞)和滤泡辅助T细胞如果表达CD8A,则被归类为“未预测”细胞。每个预测的细胞亚型的前10个标记基因被定义并使用Scanpy Python-package中的pl.rank genes groups_matrixplot函数进行可视化。

非监督聚类:使用Scanpy Python-package (v1.7.2)的scanpy.pp.normalize total将表达矩阵进行标准化,转为CPM,然后使用scanpy.pp.log1p + scanpy.tl.pca进行log+PCA。使用scanpy.pp.neighbors构建neighborhood graph,使用scanpy.tl.leiden进行非监督聚类。

每群细胞的前10个标记基因使用pl.rank genes groups matrixplot获得。

鉴定高置信度的T或B细胞(hcT/B细胞):首先使用Scirpy (v0.7.0)将V(D)J基因注释和每个TCR/BCR的CDR3序列加载进来。接着进行一系列严格的过滤:只保留同时具有转录组和TCR/BCR信息的细胞;只考虑具有配对轻/重链(BCR)或α/β链(TCR)的有效T或B细胞;过滤掉具有额外、孤立或未配对(两条同类型的链)的TCR/BCR链的细胞;数据库中显示的所有单细胞免疫分析数据都包含转录组信息和每个细胞严格配对的TCR/BCR链;排除少于30个细胞的数据集。最终,753,385/1,198,179个细胞被丢弃,444,794个hcT/B细胞在huARdb中显示。

克隆型鉴定:使用Scirpy包的pp.ir dist + tl.define clonotypes。CDR3的核苷酸序列用于定义克隆型。只有在VJ和VDJ链上具有相同CDR3核苷酸序列的细胞被定义为相同的克隆型。

数据库搭建

前端:使用HTML5和CSS3,采用Javascript和D3.js框架进行可视化。

后端:数据包含细胞、克隆型、表型信息,使用PostgreSQL数据库管理系统(v2.6.0)获取;使用Python3(v3.7.9)和Javascript进行前后端交互。

数据库部署在Linux CentOS(v8.3.2011)上的Nginx web server(v1.14.1)上。

以上就是huARdb:单细胞水平克隆型-转录组分析的人类抗原受体数据库的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号