利用合成和筛选纯化多寡核苷酸库

A+

分享一篇发表在Nature Biotechnology上的文章，文章的题目是Purification of multiplex oligonucleotide libraries by synthesis and selection。通讯作者是韩国首尔国立大学的Sunghoon Kwon教授和ATG生物技术公司Taehoon Ryu，Sunghoon Kwon教授的研究领域是生物医学工程、生物微机电系统和纳米工程等。

高通量、快速、低成本的DNA合成是合成生物学、药物生产、纳米技术及DNA信息存储等前沿科技领域的重要核心技术。DNA微阵列原位化学合成技术是在亚磷酰胺固相化学合成原理的基础上，整合了微电子学、计算科学、分子生物学、光电化学和微纳加工等相关技术的高通量DNA合成技术。但在合成过程中，由于偶联、脱保护和加帽等步骤的失败，会出现以插入和缺失碱基为主的副产物，且随着寡核苷酸长度的增加，目标产物的纯度呈指数下降。因此，为了最大限度的发挥寡核苷酸文库的效用，需要对文库合成的质量进行优化，以提高纯度。这篇文章中，作者介绍了一种依赖长度的筛选方法，通过合成和筛选来纯化寡核苷酸文库（multiplex oligonucleotide library purification by synthesis and selection，MOPSS），将寡核苷酸文库中全长产物的纯度从83%提高到了97%。

图1. MOPSS纯化方法的原理。

寡核苷酸文库的结构设计包括2个部分，分别是中间的特定设计区域和两端的通用引物区域（图1a），在5'端通用引物区域预先挑选一个生物素修饰单核苷酸的配对结合位点。MOPSS纯化方法的原理如图1b、1c所示，主要分为5步。

第1步：将寡核苷酸文库固定于载体之上。作者使用正向引物及带有胺修饰的反向引物对寡核苷酸文库进行PCR，随后将PCR产物偶联到修饰有羧基活性酯的载玻片上，引入NaOH破坏氢键并打开双链，使得载玻片上偶联的序列为反义寡核苷酸单链。

第2步：使用引物与寡核苷酸文库3'末端通用引物区域杂交（Universalprimer hybridization）。

第3步：使用具有可逆终止基团（reversible terminator）修饰的核苷酸作为原料，以反义单链作为模板，逐步人工手动合成，每个循环（去封闭-聚合酶偶联）偶联一个碱基。

第4步：当到达预先设计的生物素修饰单核苷酸的结合位点时，使用生物素修饰的单一核苷酸进行化学偶联，例如Biotin-dATP。含有插入或发生缺失碱基的寡核苷酸序列，在相同的循环数下，该位点会错位，此时只有正确长度的目标产物才能被生物素标记。

第5步：使用链霉亲和素包被的磁珠进行纯化。

图2. MOPSS方法的概念性验证。

首先，作者设计了一个概念验证性的实验，将两种不同长度的寡核苷酸文库（分别是58 bp和61 bp）1:1混合到了一起。58 bp的寡核苷酸文库被视为截短的副产物，使用MOPSS方法对61 bp的寡核苷酸文库进行纯化（图2a）。作者使用生物素修饰的dATP作为标记目标产物的单核苷酸（图2b）。纯化完成后，将纯化产物进行高通量测序（Next-generation sequencing，NGS），结果显示61 bp寡核苷酸文库的占比达到95.2%，而纯化前仅为53%（图2c）。

图3. 使用NGS仪器对微阵列合成的复杂寡核苷酸文库进行纯化。

人工手动进行第3步反应既费力又费时。因此，作者使用Illumina测序仪替代人工完成此步骤（图3a，3b），并利用MOPSS方法纯化更为复杂的寡核苷酸文库（160 bp，4503个片段）。结果显示。纯化后，目标寡核苷酸文库的占比从56%增加到了82.1%（图3c）。为了进行更深入的分析，作者纯化了具有11,263个片段且总长度为161 bp的人类捕获探针寡核苷酸库。作者改变了寡核苷酸文库中的GC含量、引入短串联重复（Short tandem repeats，STR）序列或微卫星序列（Microsatellite sequences），研究其对MOPSS纯化效率的影响。实验结果显示，MOPSS纯化后，无论STR序列或卫星序列多长，寡核苷酸文库的纯度都会增加（图3d）。此外，当寡核苷酸文库的GC含量在35%到70%之间时，纯度从61%增加到了80.5%（图3e）。对于最小自由能（Minimum free energy，MFE）高于-45 kcal mol^-1（即：不易形成稳定二级结构）的寡核苷酸文库，纯度从58.8%增加到了77.5%（图3f）。

图4. 利用MOPSS对编码数字信息的寡核苷酸文库进行纯化。

DNA的数据存储需要长且复杂的寡核苷酸文库。由于寡核苷酸的可合成长度有限，因此需要将数据拆分成许多小片段，编码在不同的寡核苷酸序列中。用于数据存储的寡核苷酸文库长度通常为100-200个核苷酸，理论上，20 MB的数据需要大约100万个不同的寡核苷酸序列。在解码数据时，需要舍弃带有插入或缺失碱基的寡核苷酸序列，或者使用额外的纠错算法。如果提升目标产物的纯度，将直接提高数据解码效率。作者设计了一个编码854字节文本文件的寡核苷酸文库（图4a）。结果显示，每种地址（address）序列纯化后的全长产物纯度都增加了（图4b）。作者将每个分子的平均NGS覆盖率从100更改为500来分析多样性，结果显示，纯化后文库的多样性增加了（图4c）。额外的纯化实验步骤如PCR，可能影响特定地址序列的比例。作者通过对每个地址的读取次数进行分析，发现与纯化前相似（图4d）。

图5. 利用MOPSS方法对CDR H3组合文库进行纯化。

最后，作者使用MOPSS纯化方法对同一体系中不同长度的寡核苷酸进行纯化，方法是根据待纯化链的长度差别，在下游的通用引物区域的相应位置引入生物素修饰核苷酸的结合位点（图5a）。作者设计了一个具有多种长度的寡核苷酸文库，编码抗体的互补决定区（complementarity-determining region，CDR）H3（图5b）。文库存在三种不同长度的序列（109、112和115 bp），长度差异分别为3 bp和6 bp（理论多样性>10⁹）。结果显示，纯化后目标寡核苷酸（除去通用引物区域）的比例从49.6%增加到83.5%（图5c）。为了分析具有3-bp碱基插入或缺失的副产物的干扰，作者分析了寡核苷酸文库序列与预先设计序列的匹配程度，发现纯化后，匹配比例从40.7%增加到68.1%（图5d）。作者还比较了寡核苷酸文库的多样性。通过对250万个测序读数进行分析，作者发现纯化后所有寡核苷酸文库的多样性都有所增加（图5e）。此外，超过94%序列仅被读取一次，证明纯化后多样性高度保留（图5f）。

总之，作者开发了一种长度依赖的寡核苷酸文库纯化方法，具有单碱基分辨率，可用于纯化含相同或不同长度的寡核苷酸的高度复杂文库。此方法利用文库固有的引物区域进行纯化，无需引入额外的序列，理论上可以满足各种生物技术对高纯度寡核苷酸文库的需求。

文章编号：63

文章作者：WYY

原文链接：

https://www.nature.com/articles/s41587-021-00988-3

原文引用：10.1038/s41587-021-00988-3

我的微信

关注我了解更多内容

生物素标记服务网

Nature Biotechnology | 利用合成和筛选纯化多寡核苷酸库

发表评论取消回复

目前评论：

微信

发表评论 取消回复

目前评论：

微信

发表评论取消回复