实验吧 关注:4,815贴子:46,689
  • 0回复贴,共1

文献解析 | 理解DNA链置换的序列和动力学之间的关系的文章

只看楼主收藏回复

大家好,今天跟大家分享一篇最近发表在Nucleic Acids Research上的文章,题为“Understanding the relationship between sequences and kinetics of DNA strand displacements”(理解序列与DNA链位移动力学之间的关系)作者利用机器学习揭示了TMSD动力学与入侵链的支点序列以及相关二级结构之间的关系。
01
研究背景
精确调节脚趾固定介导的 DNA 链位移 (TMSD) 的动力学对于其在 DNA 纳米技术中的应用至关重要。脚趾区域的序列显着影响 TMSD 的动力学。然而,由于碱基序列的各种排列导致的样品空间很大,并且由此产生的复杂二级结构,这种相关性并不直观。在此,采用机器学习来揭示 TMSD 的动力学与脚趾固定序列之间的关系以及入侵者链的相关二级结构。确定了影响 TMSD 速率常数的关键因素,例如入侵者中游离氢键位点的数量、脚趾中游离碱基的数量以及中间体中氢键的数量。此外,构建了一个预测模型,该模型成功地实现了 TMSD 速率常数的半定量预测,即使脚趾固定序列有细微的差异。
见图一
该图主要介绍了 DNA 链位移机制的研究,包括其基本过程、使用机器学习分析 DNA 序列与位移率之间的关系以及数据集的来源。

图一
(A) DNA 链位移的示意图,以具有发夹结构的入侵者为特征。整个过程包括三个步骤——脚趾结合、分支迁移和入侵者链的位移。
(B) 机器学习用于通过改变脚趾中的序列来研究 DNA 序列和链位移速率常数之间的关系,而其他因素保持不变。
(C) 数据集来源:链位移的荧光监测提供了动力学数据,而从 NUPACK 获得的结合概率共同构成了整个数据集。
见图二
该图提供了对实验数据分析的见解,包括速率常数的分布、不同速率常数类别的比例以及描述 DNA 链相互作用的变量的构建。

图二
(A) 来自 114 组实验的速率常数的分布。数据集中样本的速率常数在 5 个数量级内变化。
(B) 数据集中三类速率常数的比例。
(C) 变量的构造。在 114 组样品中,QF 链分支迁移区的 16 个核苷酸全部复合,这意味着 DNA 链的这个区域处于相同的初始状态。因此,在构建变量时,仅考虑底物链脚趾区的 6 个核苷酸和入侵链中整个 22 个核苷酸之间的相互作用。从相互作用能、自由碱基和氢键数量的角度来看,构建了 13 个变量来描述入侵者链的一级和二级结构,构建了 3 个变量来描述中间体的形成(详情见补充资料表 S2)。
见图三
此处描述的综合分析包括变量重要性排名、相关性热图和与关键变量相关的样本分布。

图三
(A) 变量的重要性排序:基于随机森林算法的每个变量的权重。
(B) 相关热图:基于 Pearson 系数的变量对之间的相关性。
(C) 样品的分布与中间体形成所涉及的氢键数量 (X14) 和中间体的量 (X15) 有关。
(D) 样品分布与脚趾中游离氢键位点的数量 (X2) 和沿整个入侵体的游离氢键位点的数量 (X5) 相关联。
(E) 与变量 X5 和 X11 相关的样本分布。
(F) 与变量 X2 和 X14 相关的样本分布。
(A) 变量的重要性排序:基于随机森林算法的每个变量的权重。
(B) 相关热图:基于 Pearson 系数的变量对之间的相关性。
(C) 样品的分布与中间体形成所涉及的氢键数量 (X14) 和中间体的量 (X15) 有关。
(D) 样品分布与脚趾中游离氢键位点的数量 (X2) 和沿整个入侵体的游离氢键位点的数量 (X5) 相关联。
(E) 与变量 X5 和 X11 相关的样本分布。
(F) 与变量 X2 和 X14 相关的样本分布。
见图四
模型的评估指标和测试结果。

图四
(A-C)ROC 曲线:展示 Logistic 回归、支持向量机和决策树模型的性能。ROC 曲线绘制真阳性与分类器的误报率。曲线下面积 (AUC) 越高表示性能越好,1 表示完美,0.5 表示随机猜测。
(D) 训练集、验证集和交叉验证的模型准确性。详情请参阅补充表 S4-S6 系列在补充资料。
(E) 测试集上的模型准确性。
见图五
根据三个代表性样品了解关键变量与动力学之间的关系。

图五
(A-C)样品 9、样品 91 和样品 39 的钢绞线位移的动力学拟合曲线。
(D-F)样品 9、样品 91 和样品 39 侵入链的最小自由能 (MFE) 结构示意图(可通过 NUPACK 访问)。
(G-I)样品 9、样品 91 和样品 39 的钢绞线位移的能量曲线。
见图六
细微序列变化对链位移动力学的影响。

图六
(A) 具有细微差异的核酸序列设计方法示意图。
(B) 在所呈现的表格中,每列包含以下数据点:入侵者的序列、变量 X2(脚趾中的总游离位点)、X5(总体游离位点)和 X11(MFE 中的氢键数量)以及实验确定的速率常数。
(C) 三个关键变量 X2、X5 和 X11 与速率常数的散点图。
02
研究结论
总之,这项工作揭示了 DNA 链的一级序列和二级结构如何影响 DNA 链移位率。确定了关键因素,并在机器学习的辅助下建立了基于这些因素的分类模型。这些模型提供了对 TMSD 速率常数的良好估计。此外,还提出了设计可控 TMSD 系统的规则。DNA 组装是一种具有代表性的组装系统,涉及多个结合位点之间的协同效应和多种非共价相互作用。预计可解释机器学习可以成为揭示复杂分子组装系统动力学黑匣子的有力工具,并促进此类系统的构建和调节。
好了,今天的文献解读就到这儿来,我们下期再见!如果你正在开展临床研究.需要方案设计.数据管理. 数据分析等支持.也随时可以联系我们。


IP属地:广东1楼2024-09-02 15:33回复