Nat Commun | 李炜/费腾团队合作提出基于机器学习方法的CRISPR-Cas13d编辑效率及脱靶效应分析工具

 收藏

关键词：机器学习Nat合作

资讯来源：BioArt

发布时间： 2023-02-19

Cas13属于第二大类VI型 CRISPR-Cas系统，是一个高效且高特异性靶向单链RNA及加工自身前体crRNA （pre-crRNA）的蛋白家族，目前已知的包括Cas13a、Cas13b、Cas13d (RfxCas13d, or CasRx) 、Cas13x和Cas13y。Cas13酶具有两个高级真核生物和原核生物核苷酸结合（HEPN）内切酶结构域，一旦被与单向导 RNA （sgRNA）相互补的单链RNA序列激活，Cas13蛋白将切割与自身结合的目标 RNA并附带切割周围遇到的单链RNA （Collateral Cleavage）。目前Cas13已经应用于RNA敲除（例如通过敲除与代谢调节相关的基因转录本而达到研究或治疗糖尿病的目的）、调控表观转录组（如N6-methyladenosine m6A修饰）、核酸检测与疾病诊断（如COVID-19病毒检测）等领域。

CRISPR-Cas系统（包括Cas13）应用的一个主要挑战是设计具有高靶向效率和特异性的sgRNA。一方面，对 sgRNA 效率的准确预测将有助于优化 sgRNA文库的设计，从而使编辑效率最大化（即高灵敏度），另一方面，深入了解 Cas 核酸酶的特异性将有助于避免潜在的脱靶效应，包括 DNA （对于 Cas9）或 RNA （对于 Cas13）水平上的脱靶切割、Cas13对附近的 mRNA产生的附带切割等。对此，通过CRISPR筛选实验，利用机器学习算法来挖掘sgRNA特征与编辑效率的对应关系，建立特定条件下的CRISPR系统性能预测模型，是目前效益较高的方法，广泛应用于Cas9系统。然而，现有针对Cas13d的预测方法存在一定的局限性：首先，其训练数据集基于测量一些特定基因表达水平的 FACS 分选筛选，尚不清楚相应模型是否适用于针对其他基因和测量其他表型（例如细胞增殖）的sgRNA；其次，尚不清楚这种在靶向蛋白质编码RNA的sgRNA上训练的模型是否适用于非编码 RNA；此外，缺乏系统的实验验证来评估现有模型的性能；最后，对Cas13d 的脱靶效应缺乏充分探索。

2023年2月10日，Nature Communications杂志在线发表了由美国华盛顿特区的儿童国家医学中心和乔治华盛顿大学李炜课题组和东北大学费腾课题组合作的文章， Modeling CRISPR-Cas13d on-target and off-target effects using machine learning approaches （儿童国家医学中心程孝龙和东北大学李泽旭为共同第一作者）， 基于机器学习方法的 CRISPR-Cas13d 编辑效率及脱靶效应建模方法。

文章首先设计了靶向必需/非必需基因及长非编码RNA (lncRNA) 的10,830个sgRNA，然后在A375细胞系中进行细胞增殖筛选实验，并将此数据与已发表的数据相结合，从而获得了包含22,599个Cas13d sgRNA数据集，以系统地研究 Cas13d 的编辑效率和特异性。在此基础上，作者设计了一种基于深度学习的模型DeepCas13，用于预测CRISPR-Cas13d 的靶向效率。与现有仅提取序列空间特征的 CRISPR-Cas9 编辑效率预测工具不同，DeepCas13进一步考虑sgRNA的RNA二级结构，这是影响RNA敲低效率的重要因素。DeepCas13 利用卷积神经网络和递归神经网络分别从sgRNA的碱基序列和RNA二级结构中提供时空特征，然后将特征整合并最终通过全连接神经网络进行预测。与传统的机器学习方法及最新发表的工具相比，DeepCas13 在 Cas13d sgRNA编辑效率预测中表现出更好的性能。此外，DeepCas13 在蛋白质编码基因和非编码 RNA （包括环状 RNA 和长链非编码 RNA）上均表现良好。文章还通过二次大规模筛选以及qRT-PCR实验进一步验证了DeepCas13性能优于已有模型。

文章还利用细胞增殖筛选试验中靶向非必需基因的sgRNA，使用随机森林算法系统地评估了Cas13d的脱靶效应。发现决定sgRNA的脱靶能力的特征与影响编辑效率的关键特征非常相似，这意味着sgRNA的脱靶效应与其编辑效率是密切相关的，而非独立存在。这种影响可以在Cas13d筛选中使用以靶向非必需基因的sgRNA作为阴性对照来减轻。文章研究表明，与使用非靶向sgRNA作为阴性对照相比，以靶向非必需基因的sgRNA作为阴性对照将大大减少筛选中的假阳性，这一发现类似于在 CRISPR/Cas9 筛选中推荐使用以靶向非必需基因的sgRNA作为阴性对照类似。文章最后将编辑效率模型和脱靶效应模型应用于234个靶向lncRNA的sgRNAs，识别了针对特定细胞系的lncRNA，并分析确定了已知和推定的致癌lncRNA。

总结来说，文章利用大规模筛选数据集设计了基于深度学习的预测模型DeepCas13，通过二次筛选及qRT-PCR实验，验证了DeepCas13性能优于现有方法。建立了基于随机森林算法的脱靶模型，证实了sgRNA的编辑效率与脱靶效应紧密联系，而非相互独立。分析Cas13d敲低lncRNA表达水平的性能，分析已知和推定的致癌lncRNA，确定以靶向非必需基因的sgRNA作为阴性对照将达到最佳性能平衡。DeepCas13还提供免费的在线预测服务，网址为 http://deepcas13.weililab.org/ 。

原文链接：

https://www.nature.com/articles/s41467-023-36316-3

制版人：十一

转载须知

【非原创文章】本文著作权归文章作者所有，欢迎个人转发分享，未经作者的允许禁止转载，作者拥有所有法定权利，违者必究。