即基因组从头测序,是对基因序列未知物种通过测序的方法获得其全基因组序列。基因组从头测序最早采用的是Sanger测序技术,也就是所谓的一代测序技术,其读长约1k,相对而言,建库过程异常繁琐,耗费周期长,成本较高。随着二代测序技术的成熟,Illumina Solexa为代表在基因组测序中已经步入主流。相较于一代,Illumina Solexa平台具有高通量、高准确率以及单位成本低等特点。
按照不同动植物的物种特点和基因组复杂程度,基因组可分为简单基因组和复杂基因组。
简单基因组:主要指重复序列比例低于50%的单倍体或高纯合二倍体(杂合率低于0.5%),如大部分的哺乳类动物、鸟类和栽培作物等。
复杂基因组:主要指重复序列比例高于50%、或杂合率高于0.5%的二倍体基因组,及多倍体基因组,如大部分林木、水产类和昆虫等。而根据杂合度、重复序列的比例,二倍体复杂基因组又分为高杂合基因组、高重复基因组等。
基因组拼接组装统计
提供基因组拼接的基本信息,包括原始数据统计、测序覆盖度统计、Contig N50大小、基因组GC含量等信息。
基因组注释
包括基因预测、基因结构注释、基因功能注释(与Nt、Nr、Swiss-Prot、Interpro、GO、KEGG等数据库进行同源比对)、重复序列分析及ncRNA注释等。
基因功能分类
包括GO富集分析、KEGG通路分析等。
进化分析
包括共线性分析,大片段复制分析,物种进化树
1. 采用Illumina HiSeq测序平台,通量高、准确度高、单位数据成本低;
2. 严格的数据质量控制
3. 丰富的各类物种组装经验
技术路线
应选择纯合或杂合度尽可能小的样品(杂合度<0.5%)的个体进行基因组测序。
植物:需要黑暗无菌条件下培养的黄化苗、组培苗。选择纯合或杂合度尽可能小的样品(杂合度<0.5%)。
动物:应在含脂肪较少的肌肉、血液等部位取样,尽量选择同一个体取样,以减少个体差异性对后续拼接的影响。 样本的性别决定模式是XY型,则尽量选择雌性个体(XX型),如果是ZW型,则尽量选择雄性个体(ZZ型)。
测序深度要求:100X-200x