创业风吧 关注:6贴子:536
  • 13回复贴,共1

AI入侵微观世界,用NLP模型绘制微生物基因样本

只看楼主收藏回复



1楼2016-06-13 16:45回复
    1L度娘


    2楼2016-06-13 16:45
    回复
      Nicholas Baro 是 Insight 健康数据科学(Health Data Science )课程的学员,现任 Seven Bridges 公司科学项目经理。还在 Insight 的时候,他与 One Codex 合作开发了一种主题建模方法,可用于估算复杂基因组样本中的相对物种丰富度。本文内容来自于他的博客。
      Nicholas Baro 是 Insight 健康数据科学(Health Data Science )课程的学员,现任 Seven Bridges 公司科学项目经理。还在 Insight 的时候,他与 One Codex 合作开发了一种主题建模方法,可用于估算复杂基因组样本中的相对物种丰富度。本文内容来自于他的博客。


      3楼2016-06-13 16:46
      回复
        介绍
        尽管 DNA 测序的成本在持续大幅下降,但其所生成的数据也越来越复杂。单个包含数百或数千不同微生物的环境样本可以通过测序的方式确定每种微生物的相对丰富度。可重复提供即准确又灵敏的结果的能力是至关重要的。
        One Codex 是一家位于旧金山的生物技术公司,成立于 2014 年,其目标是为微生物基因组学带来稳健的、现代化的软件工程。他们的客户包括公共卫生专业人员、科研人员和行业工程师等——他们需要一个通过下一代测序(NGS)数据来刻画细菌、病毒和真菌的强大且可靠的平台。在与 One Codex 的合作中,我开发了一个使用了通过他们现有的手段生成的生物分类学类别的模型,以用来估算复杂混合物中的微生物的相对丰富度。


        4楼2016-06-13 16:46
        回复
          介绍
          尽管 DNA 测序的成本在持续大幅下降,但其所生成的数据也越来越复杂。单个包含数百或数千不同微生物的环境样本可以通过测序的方式确定每种微生物的相对丰富度。可重复提供即准确又灵敏的结果的能力是至关重要的。
          One Codex 是一家位于旧金山的生物技术公司,成立于 2014 年,其目标是为微生物基因组学带来稳健的、现代化的软件工程。他们的客户包括公共卫生专业人员、科研人员和行业工程师等——他们需要一个通过下一代测序(NGS)数据来刻画细菌、病毒和真菌的强大且可靠的平台。在与 One Codex 的合作中,我开发了一个使用了通过他们现有的手段生成的生物分类学类别的模型,以用来估算复杂混合物中的微生物的相对丰富度。


          5楼2016-06-13 16:46
          回复
            将这个问题放到背景中
            微生物无处不在,而且它们还是我们人类生存的重要组成部分。它们有助于它们所生活的每一个环境,并负责将生命的关键元素转换成生物可用的形式以供我们享用。
            宏基因组学(Metagenomics)——针对这些微生物群落的遗传物质的研究——已经成为了一种强大的遗传学研究工具,让研究者可以在没有培养实验室中的微生物成员的情况下调查微生物群落的组成。为了清楚了解这种差别,让我们想想一位微生物学家在十年前会怎么做,并将其与微生物学家现在的做法进行比较。
            让我们向参与对比的两位研究者提出同样的问题,然后看他们各自会怎么处理这个问题。这两位研究者分别是:Coultare 教授——一个耐心的受过训练的真正还原论者;Progressive 教授——一位重视自己的时间的研究者。


            6楼2016-06-13 16:46
            回复
              将这个问题放到背景中
              微生物无处不在,而且它们还是我们人类生存的重要组成部分。它们有助于它们所生活的每一个环境,并负责将生命的关键元素转换成生物可用的形式以供我们享用。
              宏基因组学(Metagenomics)——针对这些微生物群落的遗传物质的研究——已经成为了一种强大的遗传学研究工具,让研究者可以在没有培养实验室中的微生物成员的情况下调查微生物群落的组成。为了清楚了解这种差别,让我们想想一位微生物学家在十年前会怎么做,并将其与微生物学家现在的做法进行比较。
              让我们向参与对比的两位研究者提出同样的问题,然后看他们各自会怎么处理这个问题。这两位研究者分别是:Coultare 教授——一个耐心的受过训练的真正还原论者;Progressive 教授——一位重视自己的时间的研究者。


              7楼2016-06-13 16:46
              回复
                数据科学方法过程
                1、获取
                我收到了 500 份包含了大约100 多万个测序数据的 FASTQ 格式的测序文件。此外,我获得了 One Codex 平台的使用权和一个 API 密钥,这让我可以将这些 FASTQ 文件上传到该平台上,并以编程的方式获取读取水平的 TSV 分类结果和 JSON 分析总结。JSON 文件包含一个支持不同分类学分组的列表(如:溶磷细菌(Enterobacteriacaea)、埃希氏菌属(Escherichia)、大肠杆菌(E. coli))。我还收到了 FASTQ 训练样本中具有物种的相对丰富度的真值表和一个当前 One Codex 结果中所用的分类学的 JSON 表示。


                8楼2016-06-13 16:47
                回复
                  2、规整/清洁
                  我做了一个脚本将所有的 FASTQ 文件都上传到了 OneCodex 平台上并以压缩的格式将结果存储到了我的本地环境中。对于每一个输入的 FASTQ,我得到两个输出,一个对应于整个 One Codex 数据库,另一个则对应于 RefSeq 数据库。我使用 SQL 将数据组织成了一个关系数据库(relational database),这样我就可以轻松地引用用于分析的文件了。
                  3、探索
                  我还收到了一个包含了所有已知生物分类学类别的分类学 .json 文件。因为我只对物种水平的生物分类学类别感兴趣,所以我不得不递归地「卷起」物种级以下的分类。比如,如果有 DNA 模式特定匹配的是致病性大肠杆菌 O157:H7 的一个特定品种,我会需要使用这个生物分类学分类,但结果只会计算到大肠杆菌的物种级水平。


                  9楼2016-06-13 16:47
                  回复
                    4、建模
                    隐含狄利克雷分布(Latent Dirichlet Allocation)是自然语言处理中所使用的一种处理方法,是一种可以基于一个包含词的文档集合自动发现主题的生成模型。它可以通过未被观察的分组(主题)解释观测到的结果(词)
                    现在我们只是简单地用分类替代词,用测序数据替代文档,以及用物种替代主题。然后瞧!我们将 LDA 模型调整到可以用来发现物种了!
                    LDA 将测序数据表示成物种的混合,并尝试分配其所属每一种生物分类学类别的概率。这个假设可以基于测序数据生成的方式而做出。另外还有一些被剪切开了的数量有限的基因组,你会尝试将基因组片段拼凑回去以发现一开始就存在其中的物种。一旦你识别出了这些物种,你可以回头根据所有的测序数据计算它们的分布。进一步比喻来说,你也可以想象你有三本不同的书。现在想象我给你的唯一东西是每一页都被移出并搅乱了的书。你正尝试通过阅读出现在每一页上的文字来弄清楚每本书的主题。


                    10楼2016-06-13 16:47
                    回复
                      等等!这究竟是怎么工作的?
                      假设你有一些测序数据(文档)、每一个都由生物分类学类别(词)组成。假设你有一些关于可能存在多少不同微生物的信息(基于仅在物种级水平上映射的测序数据的数量)。使用 LDA,你可以了解每一个测序数据的物种级水平的表征。第一步涉及到遍历每一个测序数据并随机将每一种生物分类学类别分配给物种级的主题中的一个。然后你遍历每一个测序数据并检查每一个单独的分类并提出两个问题:


                      12楼2016-06-13 16:48
                      回复
                        1. 跨物种的分类有多普遍?
                        概率(物种 | 测序数据)
                        目前在物种级水平 x 上分配的生物分类学类别的比例
                        2. 跨分类的物种有多普遍?
                        概率(生物分类学类别 | 物种)
                        分配给来自特定生物分类学类别的所有测序数据之上的物种的比例
                        随着每一种生物分类学类别被发现,它就会基于跨物种的分类和跨所有生物分类学类别的物种的分布而被分配给一个新的物种。
                        这种每一个物种分布的先验知识被随机和均匀地分配。正如你可以在下图中看到的那样,在取样开始时,所有的物种都有均等的机会。随着观察到新的生物分类学类别,该模型会更新它之前的信念。这个迭代过程被称为吉布斯采样蒙特卡罗过程(Gibbs Sampling Monte Carlo)。最终,主题的分布会收敛,我们就可以使用这一信息来推断物种的分布。


                        13楼2016-06-13 16:48
                        回复
                          总结
                          由于缺乏完整的参考基因组,将来自混合微生物样本的基因组片段映射到特定物种级的水平上是很有挑战性的。
                          向物种分配基因组片段的问题类似于 NLP 中向主题分配词的问题。
                          我利用了 LDA 方法来为每一个生物分类学类别分配概率;它能帮助识别复杂基因组样本中的未知物种和估算每一种微生物的相对丰富度。


                          15楼2016-06-13 16:48
                          回复
                            来源:机器之心 创业风整理
                            网址:http://www.cyfeng.com/archives/3892


                            16楼2016-06-13 16:49
                            回复