동물 및 식물 전장유전체 시퀀싱 (PAWGS) 은 동물과 식물의 전체 유전체를 분석하는 핵심 기술로, SNP, InDel, CNV, SV 등의 유전체 변이를 식별하는 데 활용됩니다. 전장유전체 시퀀싱은 단일 염기 수준에서 유전 정보를 완전히 해독할 수 있는 최적의 방법입니다.
Novogene는 초고속 분석 속도, 고품질 시퀀싱 데이터, 신뢰할 수 있는 결과를 제공하는 동물 및 식물 전장유전체 시퀀싱 서비스를 제공합니다. 해당 기술은 집단 유전학 연구, 전장유전체 연관 분석 (GWAS), 농업 육종 프로그램 등 다양한 연구 분야에서 폭넓게 활용되고 있습니다.
Platform Type | Sample Type | Amount (Qubit®) | Purity |
Illumina NovaSeq System | Genomic DNA | ≥ 300 ng | A260/280=1.8-2.0; no degradation, no contamination |
Genomic DNA (PCR free library) | ≥ 1.2 μg | ||
PacBio Revio System | HMW Genomic DNA (HiFi SMRTbell® library) | ≥ 5 μg | A260/280=1.8-2.0; A260/230=1.5-2.6; *NC/QC=0.95-3.00 Fragments should be ≥ 30 kb |
Nanopore PromethION | HMW Genomic DNA | ≥ 8 μg | A260/280=1.8-2.0; A260/230=1.5-2.6; Fragments should be ≥ 30 kb |
Platform Type | Illumina NovaSeq System | PacBio Revio System | Nanopore PromethION |
Read Length | Paired-end 150 bp | Average > 15 kb | Average > 17 kb |
Recommended Sequencing Depth | For SNP/InDel detection: ≥ 10× | For SV detection: ≥ 20× | |
For SV/CNV detection: ≥ 20× | |||
Content of Analysis | Standard Analysis | Standard Analysis | |
• Data quality control • Sequencing error rate • Filtering reads containing adapter or with low quality • Alignment with reference genome • Statistics of mapping, sequencing depth and coverage • SNP calling, annotation and statistics | • Data quality control • Sequencing alignment • Structural Variant (SV) detection | ||
Advanced Analysis | |||
• SV calling, annotation and statistics • CNV calling, annotation and statistics | |||
Figure 1. Distribution of sequencing quality
참고: x축은 시퀀싱 리드 내 염기 위치를 나타내며, y축은 각 위치에서 모든 리드의 평균 Phred 점수를 나타냅니다.
(페어엔드 시퀀싱 데이터는 함께 플로팅되며, 첫 번째 PE150 bp는 Read 1을, 이어지는 PE150 bp는 Read 2를 나타냅니다.)
Figure 2. Distribution of sequencing error
참고: X축은 각 시퀀싱 리드의 염기 위치를 나타내며, Y축은 염기 오류율을 나타냅니다.
(페어엔드 시퀀싱 데이터는 함께 표시되며, 첫 번째 PE150 bp는 Read 1을 나타내고, 이후 PE150 bp는 Read 2를 나
(1) Remove the paired reads when either read contains adapter contamination;
(2) Remove the paired reads when uncertain nucleotides (N) constitute more than 10 percent of either read;
(3) Remove the paired reads when low quality nucleotides (base quality less than 5, Q ≤ 5) constitute more than 50 percent of either read.
Figure 4. The mean depth of each chromosome.
참고: x축은 chromosome을 나타내며, y축은 mean depth를 나타냅니다.
ANNOVAR는 최신 정보를 활용하여 유전체에서 발견된 유전 변이를 효율적으로 주석(annotation)하는 소프트웨어입니다. 참조 뉴클레오타이드(reference nucleotide), 시작 위치(start position), 종료 위치(end position), 관찰된 뉴클레오타이드(observed nucleotides), 그리고 chromosome이 포함된 변이 목록을 제공하면, ANNOVAR는 유전자 기반(gene-based) 주석, 영역 기반(region-based) 주석, 필터 기반(filter-based) 주석을 비롯한 다양한 기능을 수행할 수 있습니다.
T:A>C:G 변이를 예로 들면, 이 범주에는 T에서 C로의 변이(T>C)와 A에서 G로의 변이 (A>G) 가 포함됩니다. 이중 가닥 (DNA double-strand) 중 어느 한 가닥에서 T>C 변이가 발생하면, 동일한 위치의 반대 가닥에서는 A>G 변이가 관찰됩니다. 따라서 T>C 변이와 A>G 변이는 동일한 범주로 분류됩니다. 이와 같은 원리에 따라, 전장유전체 (whole-genome) SNP 변이는 총 6가지 범주로 분류될 수 있습니다.
Copy-number variation (CNV)**는 **구조적 변이(structural variation)**의 한 유형으로, 특정 DNA 조각(fragment)이 **참조 유전체(reference genome)**와 비교하여 가변적인 복제 수(copy number)로 존재할 때 발생합니다. CNV는 유전체 내 **결실(deletions)과 중복(duplications)**을 식별하는 데 중요한 역할을 합니다.
참조 유전체의 **리드 깊이(reads depth)**를 기반으로, CNVnator는 -call 100 파라미터를 사용하여 잠재적인 결실 및 중복 변이를 검출하는 데 활용될 수 있습니다. 검출된 CNV는 이후 ANNOVAR를 이용하여 추가로 주석(annotation)됩니다.
Figure 11: Ann Variation type statistics distribution of CNVs
참고: x축은 **샘플(samples)**을 나타내며, y축은 각 **CNV 유형의 비율(proportion of each type of CNVs)**을 나타냅니다.