rna测序

时间：2024-09-21 07:28:20编辑：奇闻君

RNA-seq的实验流程

样品提取总RNA后，对于真核生物，用带有Oligo(dT)的磁珠富集mRNA，对于原核生物，用试剂盒去除rRNA，向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段，再以片断后的mRNA为模板，用六碱基随机引物(random hexamers)合成cDNA第一链，并加入缓冲液、dNTPs、RNase H 和DNA polymerase I 合成cDNA第二链，经过QiaQuick PCR试剂盒纯化并加 EB缓冲液洗脱经末端修复、加碱基A，加测序接头，再经琼脂糖凝胶电泳回收目的大小片段，并进行PCR扩增，从而完成整个文库制备工作，构建好的文库用Illumina HiSeq2000进行测序。

19高通量测序-RNA-Seq中的技术重复问题

在RNA-Seq中我们是否需要技术重复？如果我们有生物学重复就不需要技术重复。为什么？

现在，想象一下我们可以在没有任何技术变异的情况下进行RNA-seq。现在我们对一些老鼠的gene X进行测序，得到X的reads。下图中，由于没有技术重复，所以样本1和样本2的gene X reads差异来自于生物的变异。

我们测序了地球上所有老鼠的gene X，并得到reads，并用希腊字母μ表示所有gene Xreads的平均值。然后找出每只老鼠的reads和所有老鼠的平均reads之间的差异。

假设我们只计算了5个样本，此时我们用数学公式来表示前五只老鼠的reads，然后计算出这5只老鼠reads的平均值。

然后我们对式子进行化简，左边是μ，右边是常数，会随着样本量的增加趋向于0。

为了让事情更清楚，生物学变异是橙色的，技术变异是绿色的，绿色箭头箭头向下表示技术变异导致reads减少，绿色箭头箭头向上表示技术变异导致reads增加，此时我们用数学公式来表示前五只老鼠的reads，然后计算出这5只老鼠reads的平均值。

和之前一样，有了更多的样本，两个变化项都将趋近于零，因为分子上的值会相互抵消。

首先，让我们想象一下，我们有一只老鼠，在它身上做了5次测序，生物学变异是橙色的，技术变异是绿色的，此时我们用数学公式来表示前五个样本的reads，然后计算出这5个样本reads的平均值。

在这个案例中，第1只小鼠的基因X的reads数的均值由3部分构成。第1部分是实际均值μ，第2部分是生物学变异，它是一个固定的值。第3个部分是技术变异，但随者技术重复的增多会趋于0。

现在，样本1有两个技术重复，样本2有3个技术重复。计算reads平均值。

我们来看一下中间一项趋向到0有多慢。我们对2号老鼠做了3次技术复制，因此总共需要15个样本才能得到和5个生物学重复相同的术语。

RNA-seq原理

测序技术发展：

1977Sanger测序--1996焦磷酸测序--2003cmPCR--2003ZMW---2012纳米孔测序

RNA-seq的一些技术限制，测序误差主要由生物学误差(生物学重复，比如取30只小鼠采样)和技术性误差(技术性重复，比如对1只小鼠采样3次)造成，如果想要得到的数据为无偏的，那么生物学重复最重要，因为生物个体代表着样本，而技术手段只会造成不可控干扰。总的来说，只做技术性重复的实验结果偏差最大，技术性重复+生物学重复的实验结果偏差也可能较大，除非生物学重复远大于技术性重复(因为当生物学重复次数不足时，技术性重复能扩大样本单一的影响)，无论如何，多做生物学重复，这有助于你的结论被其他人复现。

原理详解：

A 为了保证细胞在标记的过程中是单独分开的，10X开发了微流体设备(microfuidic device)进行预处理，设备有三个上样孔，分别加入你的1.样本细胞悬液(Sample) 2.凝胶小球(Beads) 3.分离液(Oil)，下图为具体设备的示意图。

当我们把样本细胞悬液加入设备时，每一个细胞会与凝胶小球单独结合，然后被分离液包裹，形成一个油包水的密闭小液滴(droplet)。进一步地，细胞和凝胶小球相遇不久后会裂解，释放出里面的各种物质，RNA(mRNA、tRNA、rRNA)，蛋白质，脂质，DNA等。实际上Beads上联接了不同的接头，其中有一个接头包含ploy(dT)序列，在细胞裂解后释放的核酸中，只有mRNA带有polyA tail，于是Beads的poly(dT)接头就可以从众多的裂解产物里捕获到mRNA(实际上drop-seq采用3'端测序，就是为了检测polyA tail)。

Master Mix中带有反转录试剂，当mRNA被捕获后，就可以从它的3‘端开始作为模板，进行反转录出cDNA的第一条链，这第一条链就沿着poly(dT)序列延申，长在了beads上，形成了图一7中的STAMPs，接着我们把反转录出来的cDNA序列洗脱，以cDNA的第一条链为模板，进行PCR，合成cDNA的第二条链，然后就是我们熟悉的cDNA扩增以及illumina测序。

如何确定测序序列来自哪个细胞？single cell的RNA-seq和bulk的RNA-seq的最大区别是什么？是barcode，或者说是cell barcode(实际上DNA自带barcode，cell barcode是人为控制的)。每一种single cell的beads上都有着相同的cell barcode(beads与beads间的cell barcode是不同的)，假设每个beads只捕获一个cell，那么则每个cell都被cell barcode 单独标记了。

如何保证每个beads只捕获一个cell？第一是控制cell和beads的流速，第二是beads的数目远远超过cell的数目，即绝大多数的beads都是空的，只有少数的才捕获到了cell。但是还是有个别的droplet里面会两个或者更多的细胞，这就需要进行质控(QualityControl)。

接下来可以参照10X Genomics的说明书详解single cell RNA-seq的barcode。

实际上beads上一开始只接了Read1、Barcode、Poly(dT)。

名词解释：

Poly(dT): 用来和mRNA的polyA结合，捕获mRNA

UMI: 用来标记不同的PCR产物(用于count计数)。为了减少由于复制引起的误差(重复抽样导致重复计数)，人们在一些单细胞测序的步骤中增加了UMI(unique molecular identifiers)，UMIs 是由 4-10 个随机核苷酸组成的序列，在 mRNA 反转录后，进入到文库中，每一个 mRNA，随机连上一个 UMI，因此可以计数不同的 UMI，最终计数 mRNA 的数量。

10X Barcode: 用来标记不同的single cell

Sample Index: 用来标记不同的sample

P5和P7: 用来进行illumina的桥式PCR测序

Truseq Read 1、2: 用来进行连接beads，cDNA的PCR扩增和加P7接头

在这些序列中，P5、P7、Truseq Read 1、2 的序列是已知的。

其他的序列是怎么一步一步添加上去的？

具体步骤：

利用Poly(dT)来捕获mRNA，在mRNA的5'端插入TSO(Template Switch Oligo模板切换低聚糖)引物，然后从mRNA的polyA开始反转录，直至mRNA的DNA序列被转录完成，然后在beads序列的3'端插入CCC，再对mRNA的TSO进行反转录，至此完成了cDNA的第一条链(序列顺序和mRNA逆序)。上述步骤很重要，因为中间cDNA的序列我们是不知道的(仪器测序长度有限)，如果不加上这个接头，就没有办法设计引物来合成cDNA的第二条链。

将mRNA溶解，对cDNA的第一条链加入UMI引物，以cDNA的第一条链为模板合成cDNA的第二条链。最后使用PCR(聚合酶链式反应)对cDNA(拷贝DNA)进行扩增(为了富集)。

PCR原理

因为II代测序(NGS)的illumina测序不能测很长的seq，约为200-700bp，所以不能测得mRNA全长，因此需要进一步把合成的cDNA利用酶打断到illumina能测的长度(长度有些随机，比如300bp的cDNA能通过头尾150bp完整测序，但700bp的cDNA只能通过头尾150bp测序+参考基因组推断出来)。然后在cDNA的3'端插入Truseq Read2引物(和Truseq Read1引物匹配为头尾，中间序列就是reads)、P5、P7。

最后的测序数据(reads)从Truseq Read1后的10X Barcode开始，一直到Truseq Read2为止。

PCR扩增是对cDNA单链进行复制，后面的桥式PCR是对完整的样本进行复制(增加数据深度)，总的来说各个cDNA呈均匀分布，然后进行抽样。

RNA-seq duplications有PCR duplication(最主要)、cluster duplication、optical duplication。

实际上仪器会对核苷酸进行染色，然后判断颜色确定ATCG碱基，因此有很多原因会导致机器误判，和后续QC有关。

1.某些核苷酸对颜色附着不明显

2.大片区域颜色相同(相同类型核苷酸)，而其中仅有几个颜色不同的点(不同类型的核苷酸)

上一篇：轻钢集成房屋

下一篇：没有了