第 3/5 章

三、cellranger VDJ

CellRanger vdj 可用于分析 Chromium Single Cell 5' V (D) J 库产生的测序数据。它从 V (D) J 库中获取 FASTQ 文件,并执行序列组装和配对克隆型调用。它使用 Chromium 细胞条形码和 UMI 来组装每个细胞的 V (D) J 转录本。克隆型和 CDR3 序列以 .vloupe 文件的形式输出,可以加载到 Loupe V (D) J Browser 中。

其核心功能为 cellranger vdj,主要输出 all_contig_annotations.json 、 filtered_contig_annotations.csv 、 clonotypes.csv 、 consensus.fasta 、 filtered_contig.fasta。

1、scBCR数据的上游定量 1.1 下载 10x genomics 的软件下载是要在线申请的,大家可以访问网站自行申请链接:https://support.10xgenomics.com/single-cell-atac/software/downloads/latest wget -O cellranger-9.0.1.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-9.0.1.tar.gz?Expires=1754582697&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=***~M6dv50cJKytHQJBHS6SS0UdP7G3Jw-k7m9~m4zyMMvTXxynww3~n-G~de5CNnApnIqsloGjj--YS~~WAGButJs~8nKl~OUtnVOdHaar2WYY15yS2H93oSyDqMYfO-zSXtXiVXtyr3bZM4oZAlBWiRfu69pFRw82myjDwt0QBCSLyth1PoQABLHFI3A23nNlbkIuxSfBYAeQnr~mJdRhHk5eyrDSf9Y75ACtSwmv7vPWexatnXnOOWez36czc75usOa2nXjKeZBdbmV6QjGj0nxIyEEyzHccQ__" 这里的软件下载是动态加密地址,在资料目录中已经替大家下载好了名为 cellranger-9.0.1.tar.gz 的文件(这里推荐版本大于6.1)。

需要注意的是,cellranger 只能在 Linux 环境中运行(十小时学会Linux),且需要至少8核心、64运行内存、1TB磁盘空间、64位 CentOS/RedHat 7.0 或 Ubuntu 14.04 及以上的环境才能够运行,没有计算环境的同学可参考:足够支持你完成硕博生涯的生信环境 1.2 参考基因组准备 除了软件外,大家还需要下载参考基因组数据,最常用的参考数据为人的 GRCh38 与小鼠的 mm10 参考基因组 wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz tar -xf refdata-gex-GRCh38-2020-A.tar.g wget https://cf.10xgenomics.com/supp/cell-atac/refdata-cellranger-arc-mm10-2020-A-2.0.0.tar.gz tar -xf refdata-cellranger-arc-mm10-2020-A-2.0.0.tar.gz wget https://cf.10xgenomics.com/supp/cell-vdj/refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0.tar.gz tar -xf refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0.tar.gz 1.3 测试数据下载 这里我们下载了10X 官网提供的人类 B 细胞 多组学 5’测序数据(包括表达和VDJ数据)以及VDJ数据库用作展示 mkdir dataset-multi-practice cd dataset-multi-practice wget https://cf.10xgenomics.com/samples/cell-vdj/6.0.0/sc5p_v2_hs_B_1k_multi_5gex_b_Multiplex/sc5p_v2_hs_B_1k_multi_5gex_b_Multiplex_fastqs.tar -xf sc5p_v2_hs_B_1k_multi_5gex_b_Multiplex_fastqs.tar 如果是非模式动物需要自定义reference_vdj 如果官方gtf文件中没有提供 feature_type 包含 V / D / J / C 区段,则需要使用 IMGT/GENE-DB 数据库自己构建对应的 Gtf 文件 cellranger mkvdjref --genome =< GENOME_NAME > \ --fasta =< path/to/sequences.fasta > \ --genes =< path/to/annotations.gtf > 它会生成一个可用于 --vdj-reference 参数的参考目录,目录结构类似于:refdata-cellranger-vdj-xxx-alts-ensembl-5.0.0/ ├── fasta/ │ └── regions.fa ├── reference.json └── reference_info.txt 还需要创建一个 multi_config.csv 文件去定义文件配置 nano multi_config.csv [gene-expression] # 表达数据相关配置 reference,/path/to/project expect-cells,1000 create-bam,true [vdj] # V(D)J 数据相关配置 reference,/path/to/project [libraries] # 所有原始 fastq 文件的路径和类型 fastq_id,fastqs,lanes,feature_types,subsample_rate sc5p_v2_hs_B_1k_5gex,/path/to/project | 2,gene expression, sc5p_v2_hs_B_1k_b,/path/to/project | 2,vdj, 1.4 软件运行 准备好必须的文件,就可以开始运行 mkdir runs/ cd runs/ cellranger multi --id = HumanB_Cell_multi --csv = ../multi_config.csv 生成这样日志就说明成功运行 Martian Runtime - v4.0.13 Serving UI at 相关链接见专题页 ? auth=*** Running preflight checks ( please wait ) ... 2025-08-07 06:40:20 [ runtime ] ( ready ) ID.HumanB_Cell_multi.SC_MULTI_CS.PARSE_MULTI_CONFIG 2025-08-07 06:40:20 [ runtime ] ( run:local ) ID.HumanB_Cell_multi.SC_MULTI_CS.PARSE_MULTI_CONFIG.fork0.chnk0.main 2025-08-07 06:40:33 [ runtime ] ( chunks_complete ) ID.HumanB_Cell_multi. …… 输出显示 “Pipestance completed successfully!” 时,任务就完成了 web_summary: /path/to/project metrics_summary: /path/to/project } Waiting 6 seconds for UI to do final refresh. Pipestance completed successfully! 检查一下生成的文件目录结构 ── runs └── HumanB_Cell_multi ├── _cmdline ├── extras ├── _filelist ├── _finalstate ├── HumanB_Cell_multi.mri.tgz ├── _invocation ├── _jobmode ├── _log ├── _mrosource ├── outs ├── _perf ├── _perf._truncated_ ├── SC_MULTI_CS ├── _sitecheck ├── _tags ├── _timestamp ├── _uuid ├── _vdrkill └── _versions 这样我们就成功生成了定量的结果文件,接下来可以使用 scRepertoire 对数据进行下游分析 2. scTCR数据的上游定量 除了 scBCR-seq 数据,cellranger同样支持 scTCR-seq 数据的定量分析,这里我们下载一个scTCR-seq测试数据进行类似的分析。

2.1 TCR测试数据下载 cd dataset-multi-practice wget https://cf.10xgenomics.com/samples/cell-vdj/5.0.0/sc5p_v2_hs_T_1k_multi_5gex_t/sc5p_v2_hs_T_1k_multi_5gex_t_fastqs.tar -xf sc5p_v2_hs_T_1k_multi_5gex_t_fastqs.tar 2.2 准备配置文件 类似的接下来准备 multi_config_T.csv nano multi_config_T.csv [gene-expression] # 表达数据相关配置 reference,/path/to/project expect-cells,1000 create-bam,true [vdj] # V(D)J 数据相关配置 reference,/path/to/project [libraries] # 所有原始 fastq 文件的路径和类型 fastq_id,fastqs,lanes,feature_types,subsample_rate sc5p_v2_hs_T_1k_5gex,/path/to/project | 2,gene expression, sc5p_v2_hs_T_1k_T,/path/to/project | 2,vdj, 2.3 软件运行 准备好必备的文件,就可以开始运行 mkdir -p runs/ cd runs/ cellranger multi --id = HumanT_Cell_multi --csv = ../multi_config_T.csv 检查一下生成的文件目录结构 tree -L 3 ── runs ├── multi_config.csv ├── multi_config_T.csv ├── runs │ ├── HumanB_Cell_multi │ │ ├── _cmdline │ │ ├── extras │ │ ├── _filelist │ │ ├── _finalstate │ │ ├── HumanB_Cell_multi.mri.tgz │ │ ├── _invocation │ │ ├── _jobmode │ │ ├── _log │ │ ├── _mrosource │ │ ├── outs │ │ ├── _perf │ │ ├── _perf._truncated_ │ │ ├── SC_MULTI_CS │ │ ├── _sitecheck │ │ ├── _tags │ │ ├── _timestamp │ │ ├── _uuid │ │ ├── _vdrkill │ │ └── _versions │ ├── HumanT_Cell_multi │ │ ├── _cmdline │ │ ├── extras │ │ ├── _filelist │ │ ├── _finalstate │ │ ├── HumanT_Cell_multi.mri.tgz │ │ ├── _invocation │ │ ├── _jobmode │ │ ├── _log │ │ ├── _mrosource │ │ ├── outs │ │ ├── _perf │ │ ├── _perf._truncated_ │ │ ├── SC_MULTI_CS │ │ ├── _sitecheck │ │ ├── _tags │ │ ├── _timestamp │ │ ├── _uuid │ │ ├── _vdrkill │ │ └── _versions │ └── output │ ├── clonal_quant.pdf │ ├── clusters_umap.pdf │ ├── dotplot_clusters.pdf │ └── scRep_example_full.rds ├── sc5p_v2_hs_B_1k_multi_5gex_b_fastqs │ ├── sc5p_v2_hs_B_1k_5gex_fastqs │ │ ├── sc5p_v2_hs_B_1k_5gex_S1_L001_I1_001.fastq.gz │ │ ├── sc5p_v2_hs_B_1k_5gex_S1_L001_I2_001.fastq.gz │ │ ├── sc5p_v2_hs_B_1k_5gex_S1_L001_R1_001.fastq.gz │ │ ├── sc5p_v2_hs_B_1k_5gex_S1_L001_R2_001.fastq.gz │ │ ├── sc5p_v2_hs_B_1k_5gex_S1_L002_I1_001.fastq.gz │ │ ├── sc5p_v2_hs_B_1k_5gex_S1_L002_I2_001.fastq.gz │ │ ├── sc5p_v2_hs_B_1k_5gex_S1_L002_R1_001.fastq.gz │ │ └── sc5p_v2_hs_B_1k_5gex_S1_L002_R2_001.fastq.gz │ └── sc5p_v2_hs_B_1k_b_fastqs │ ├── sc5p_v2_hs_B_1k_b_S1_L001_I1_001.fastq.gz │ ├── sc5p_v2_hs_B_1k_b_S1_L001_I2_001.fastq.gz │ ├── sc5p_v2_hs_B_1k_b_S1_L001_R1_001.fastq.gz │ ├── sc5p_v2_hs_B_1k_b_S1_L001_R2_001.fastq.gz │ ├── sc5p_v2_hs_B_1k_b_S1_L002_I1_001.fastq.gz │ ├── sc5p_v2_hs_B_1k_b_S1_L002_I2_001.fastq.gz │ ├── sc5p_v2_hs_B_1k_b_S1_L002_R1_001.fastq.gz │ └── sc5p_v2_hs_B_1k_b_S1_L002_R2_001.fastq.gz ├── sc5p_v2_hs_B_1k_multi_5gex_b_Multiplex_fastqs.tar ├── sc5p_v2_hs_T_1k_multi_5gex_t │ ├── sc5p_v2_hs_T_1k_5gex_fastqs │ │ ├── sc5p_v2_hs_T_1k_5gex_S1_L001_I1_001.fastq.gz │ │ ├── sc5p_v2_hs_T_1k_5gex_S1_L001_I2_001.fastq.gz │ │ ├── sc5p_v2_hs_T_1k_5gex_S1_L001_R1_001.fastq.gz │ │ ├── sc5p_v2_hs_T_1k_5gex_S1_L001_R2_001.fastq.gz │ │ ├── sc5p_v2_hs_T_1k_5gex_S1_L002_I1_001.fastq.gz │ │ ├── sc5p_v2_hs_T_1k_5gex_S1_L002_I2_001.fastq.gz │ │ ├── sc5p_v2_hs_T_1k_5gex_S1_L002_R1_001.fastq.gz │ │ └── sc5p_v2_hs_T_1k_5gex_S1_L002_R2_001.fastq.gz │ └── sc5p_v2_hs_T_1k_t_fastqs │ ├── sc5p_v2_hs_T_1k_t_S1_L001_I1_001.fastq.gz │ ├── sc5p_v2_hs_T_1k_t_S1_L001_I2_001.fastq.gz │ ├── sc5p_v2_hs_T_1k_t_S1_L001_R1_001.fastq.gz │ ├── sc5p_v2_hs_T_1k_t_S1_L001_R2_001.fastq.gz │ ├── sc5p_v2_hs_T_1k_t_S1_L002_I1_001.fastq.gz │ ├── sc5p_v2_hs_T_1k_t_S1_L002_I2_001.fastq.gz │ ├── sc5p_v2_hs_T_1k_t_S1_L002_R1_001.fastq.gz │ └── sc5p_v2_hs_T_1k_t_S1_L002_R2_001.fastq.gz └── sc5p_v2_hs_T_1k_multi_5gex_t_fastqs.tar 16 directories, 72 files

← 上一章 下一章 →