
单碱基编辑技术是近些年来基于CRISPR/Cas系统改造发展的新型基因编辑技术,它可以在不引入DNA双链断裂的情况下,精确地将DNA或者RNA中的一个碱基替换为另一个碱基。目前已经开发并得到广泛应用的碱基编辑器包括胞嘧啶碱基编辑器(cytosine base editor, CBE)以及腺嘌呤碱基编辑器(adenine base editor, ABE),但是这两种碱基编辑器只能实现将C·G碱基对替换为T·A碱基对(C→T),或者将A·T替换为G·C(A→G)。因此,CBE或者ABE只能修复由C>T或者A>G导致的遗传表型或者疾病,而对于其它类型的单碱基突变却束手无策。2020年,科研人员在CBE的基础上,研发了能够将胞嘧啶转换为鸟嘌呤的碱基编辑器(C-to-G base editor, CGBE)【1,2】。但关于CGBE编辑器的研究仍处于初步阶段,对于其特异性、保真性以及编辑特点仍需进一步研究。David Liu实验室与其合作者对CGBEs系统进行改造与升级,构建了高效的CGBEs编辑器【3】。为能够方便科研人员的日常研究,人工智能与基因编辑结合的越来越紧密,David Liu及Hyongbum Henry Kim等实验室分别已经建立了能够预测单碱基编辑器编辑效果的BE-Hive【4】及DeepBE【5】等深度学习模型。
2021年08月12日,中国农业科学院深圳农业基因组研究所左二伟研究组与中国科学院脑科学与智能技术卓越创新中心孙怡迪研究组合作开发了高效率、高保真的新型OPTI-CGBEs并建立机器学习模型CGBE-SMART。该项研究成果发表于Nature Communications,题为:Optimization of C-to-G base editors with sequence context preference predictable by machine learning methods。
首先通过筛选不同物种来源的UNGs、密码子优化等措施,研究人员获得可进行高效C到G碱基颠换的OPTI-CGBEs,并在全基因组及转录组范围研究其保真性。通过内源位点及文库水平研究发现OPTI-CGBEs在WCW motif能够实现更高的C-to-G编辑效率;并进一步开发出偏好TCW motif偏好性的eA3A-OPTI-CGBEs,偏好CCN motif的hA3G-OPTI-CGBEs和hA3G-CTD-OPTI-CGBEs等编辑器,或者用可识别NG PAM的Cas9n-NG、spGn和xCas9n替换OPTI-CGBEs中的nCas9,分别构建了不同CGBEs版本,扩大了CGBE的可编辑范围。一方面为方便其他研究人员选择合适的C-to-G碱基编辑器,另一方面为高效预估编辑效率,研究人员还建立预测不同C-to-G碱基编辑器编辑效果的深度学习模型CGBE-SMART(图1)。CGBE-SMART结合了神经网络以及概率图模型,为每一个编辑位置独立训练一套参数来预测该位置上的编辑效率。模型使用了大小不同的卷积核,建立一组基础单元网络对编辑位置周围的碱基进行特征提取和效率预测。最终研究人员将不同基础单元网络的预测结果用一套习得的参数进行加权平均。模型以编辑位点附近的40bp作为输入,通过神经网络预测出guide RNA结合位置1至20的编辑效率并进一步利用贝叶斯网络预测不同编辑结果的占比(图1a)。研究人员将CGBE-SMART用在不同的CGBE编辑器的8个文库数据集上进行实验。在所有的8个数据集上,BE-SMART具有较高的预测准确性(图1b)。CGBE-SMART不仅能够准确预测C-to-G编辑效率,而且与之前的预测模型相比,在预测C-to-T编辑效果中也有更为出色的表现。最后,研究人员还利用构建的OPTI-CGBEs在小鼠胚胎中高效对Tyr毛色基因进行编辑。
总之,研究人员全面优化了CGBE碱基编辑器,获得了高编辑效率与低脱靶的OPTI-CGBEs;并通过机器学习开发了CGBE-SMART深度学习模型用于预测OPTI-CGBEs编辑结果。该研究将进一步加速CGBE的应用研究。
该研究中国农业科学院农业基因组所左二伟研究员和中国科学院脑科学与智能技术卓越创新中心孙怡迪研究员为共同通讯作者,中国农业科学院农业基因组所袁堂龙助理研究员、闫娜娜博士后、郑基坛硕士、李娜娜科研助理、刘敬硕士和中国科学院脑科学与智能技术卓越创新中心费天一和孟娟为共同第一作者。
原文链接:
https://www.nature.com/articles/s41467-021-25217-y.pdf
参考文献
1. Kurt, I.C. et al. CRISPR C-to-G base editors for inducing targeted DNA transversions in human cells. Nat Biotechnol (2020).
2. Zhao, D. et al. Glycosylase base editors enable C-to-A and C-to-G base changes. Nat Biotechnol (2020).
3. Koblan, L.W. et al. Efficient C•G-to-G•C base editors developed using CRISPRi screens, target-library analysis, and machine learning. Nature biotechnology (2021).
4. Arbab, M. et al. Determinants of Base Editing Outcomes from Target Library Analysis and Machine Learning. Cell (2020).
5. Song, M. et al. Sequence-specific prediction of the efficiencies of adenine and cytosine base editors. Nature Biotechnology (2020).
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经允许禁止转载,作者拥有所有法定权利,违者必究。