跳转至

生物信息学实用教程:从多序列比对到系统发育树构建

本教程将引导你完成一个核心的生物信息学分析流程:首先使用 MUSCLEMAFFT 进行多序列比对,然后使用 IQ-TREE 构建系统发育树。

第一步:选择并进行多序列比对

多序列比对(MSA)是后续分析的基础,其质量至关重要。

如何选择比对工具?

特点 推荐工具 适用场景
序列数量少、长度短 MUSCLE 适用于几百条、长度在 20,000 个碱基/氨基酸以下的序列。速度极快,结果可靠。
序列数量多、长度长 MAFFT 适用于大规模数据集,尤其是当序列长度超过 20,000 个碱基时(如线粒体/病毒全长基因组)。

核心原则: 如果用 MUSCLE 时遇到关于序列长度的报错(如 HMM overflow),那么就应该换用 MAFFT。

工具安装与使用

选项A: MUSCLE (适用于快速、常规比对)

1. 安装

2. 使用

打开终端(命令提示符或 PowerShell),进入文件所在目录,运行以下命令:

# Windows
muscle.exe -super5 sequences.fa -output aligned_sequences.fa

# Linux
muscle -super5 sequences.fa -output aligned_sequences.fa

  • -super5: 调用 MUSCLE v5 中推荐的快速且准确的算法。

选项B: MAFFT (适用于大规模、长序列比对)

1. 安装

  • Windows: 从 MAFFT 官网下载并运行安装程序。
  • Linux (Ubuntu/Debian): 强烈推荐使用 conda。
    # 创建并激活新环境
    conda create -n mafft_env -c bioconda mafft
    conda activate mafft_env

2. 使用

--auto 选项在绝大多数情况下都是最佳选择。

# 自动选择最优策略,并使用所有CPU核心加速
mafft --auto --thread -1 your_sequences.fa > aligned_sequences.fa

  • --auto: 自动选择最佳比对策略。
  • --thread -1: 在 Linux 上使用所有可用的 CPU 核心。在 Windows 上可指定具体数字,如 --thread 8。
  • >: 将输出结果保存到文件。

第二步:构建系统发育树 (以 IQ-TREE 为例)

完成多序列比对后,你就得到了构建系统发育树所必需的输入文件(例如 aligned_sequences.fa)。在众多建树工具中,IQ-TREE 因其卓越的速度、顶尖的模型选择功能和高度的准确性,已成为现代系统发育分析的黄金标准。

为什么选择 IQ-TREE?

  • 准确性高: 内置的 ModelFinder 功能可以自动为你的数据找到最合适的进化模型。
  • 速度极快: 支持多线程并行计算,能极大地缩短大规模数据的分析时间。
  • 学术界标准: 是发表高质量科研论文的首选工具。

安装 IQ-TREE (Linux)

同样,强烈推荐使用 conda 进行安装。

# 1. 创建一个专门用于 iqtree 的新环境
conda create -n iqtree_env -c bioconda iqtree

# 2. 激活环境
conda activate iqtree_env

之后,你就可以在此环境中直接使用 iqtree 命令。

使用方法

  1. 准备文件:确保你的终端位于比对好的文件(例如 aligned_sequences.fa)所在的目录。
  2. 运行命令
    iqtree -s aligned_sequences.fa -B 1000 -T AUTO

命令解释:
* iqtree: 运行程序。
* -s aligned_sequences.fa: -s (sequence) 指定输入的比对文件。
* -B 1000: -B (Bootstrap) 运行1000次 Ultrafast Bootstrap 可靠性检验,评估树各分支的置信度。
* -T AUTO: -T (Threads) 自动检测并使用所有可用的CPU核心进行并行计算,极大加速分析。

结果解读与可视化

运行结束后,IQ-TREE会生成多个文件。最重要的一个是:

  • .treefile (例如 aligned_sequences.fa.treefile): 这是最终的系统发育树,以 Newick 格式存储。

这个纯文本文件需要使用可视化软件来查看:

  • FigTree: 经典、免费的桌面树文件查看器。
  • iTOL (Interactive Tree Of Life): 功能强大的在线网页工具,可以制作出版级别的进化树图。
  • MEGA: MEGA 软件也可以作为树文件查看器,直接将 .treefile 文件拖入即可。