4、建模
隐含狄利克雷分布(Latent Dirichlet Allocation)是自然语言处理中所使用的一种处理方法,是一种可以基于一个包含词的文档集合自动发现主题的生成模型。它可以通过未被观察的分组(主题)解释观测到的结果(词)
现在我们只是简单地用分类替代词,用测序数据替代文档,以及用物种替代主题。然后瞧!我们将 LDA 模型调整到可以用来发现物种了!
LDA 将测序数据表示成物种的混合,并尝试分配其所属每一种生物分类学类别的概率。这个假设可以基于测序数据生成的方式而做出。另外还有一些被剪切开了的数量有限的基因组,你会尝试将基因组片段拼凑回去以发现一开始就存在其中的物种。一旦你识别出了这些物种,你可以回头根据所有的测序数据计算它们的分布。进一步比喻来说,你也可以想象你有三本不同的书。现在想象我给你的唯一东西是每一页都被移出并搅乱了的书。你正尝试通过阅读出现在每一页上的文字来弄清楚每本书的主题。