'assmbly'에 해당되는 글 1건

  1. 2018.01.09 [번역] Sequence Assembly - 염기서열 조립, 유전체 조립
반응형

[번역] Sequence Assembly - 염기서열 조립유전체 조립

   

 글은 위키피디아의 Sequence Assembly 항목을 번역한 것입니다영어 원문은 여기 찾으실  있습니다.
주의생명정보학은 빠르게 발전하는 학문이며 위키피디아 글은 예전에 작성되었기 때문에 현재 발전된 기술  소프트웨어들은 생략이 많이 되어있습니다.


생명정보학에서염기서열 조립 (sequence assembly) 본래의 염기서열을 알아내기 위해 조각들을 정렬하고 합쳐서  기다란 DNA 서열로 만드는 것을 의미한다이것은 DNA 시퀀싱 기술이  번에 유전체 전체를 읽을 수가 없고사용하는 기술에 따라, 20에서 30,000 베이스 사이의 작은 조각들로만 읽을 수가 있기 때문이다. Reads라고 불리는  작은 조각들은 주로 유전체나 EST 샷건 시퀀싱 (shotgun sequencing) 하는 것으로부터 생긴다.
유전체 조립 문제를 비유하자면같은  여러 권을 각각 다른 분쇄기에 파쇄한 다음 조각들만 가지고 책의 내용을 파악하는 것과 같다 작업의 당연한 어려움에 더불어서실제적으로도  가지 추가적인 문제가 있다: 1) 원본은 내용이 똑같은 문단이  번씩 반복된다. 2) 조각들 중에 조각내는 과정에서 생긴 오탈자가 있다. 3) 다른 책에서 생긴 조각이 들어갈 가능성도 있다그리고 4) 몇몇 조각들은 아예 알아볼 수가 없다.


목차 - Contents

유전체 조립 도구 (어셈블Genome assemblers
2 EST 조립 도구 EST assemblers
데노보와 맵핑 조립 De-novo vs. mapping assembly
기술 발전의 영향 Influence of technological changes
탐욕적 알고리즘 Greedy algorithm
유전체 조립 도구의  Notable assemblers
외부 링크 See also
참조 문헌 References


1. 유전체 조립 도구 (어셈블러) - Genome assemblers

최초의 시퀀스 어셈블러는 1980년대 후반과 1990년대 초반에 programs to piece together vast quantities of fragments generated by automated sequencing instruments called DNA 시퀀서 (DNA sequencers) 불리는 자동 시퀀싱 기계가 출력해  방대한 양의 조각들을 짜집기 위해 간단한 시퀀스 정렬 프로그램의 변형된 버전으로나오기 시작했다시퀀싱 하는 대상 생물이 크기와 복잡성에서 점차 증대 함에 따라 유전체 프로젝트 (genome projects) 필요한 어셈블러는 더욱 복잡한 방법이 필요하게 되었다컴퓨터 클러스터에서 수행할 테라바이트 급의 시퀀싱 데이터동일하거나 아주 비슷한 (반복 구간으로 불리는시퀀스들은최악의 경우에알고리즘의 시간과 리소스를 기하급수적으로 늘릴  있었고조각에 존재하는 시퀀싱 기계로 인한 에러들은어셈블리 자체를 혼란에 빠뜨릴  있었기 때문이다
최초의 대형 진핵생물 유전체인 초파리 Drosophila melanogaster 조립하는 데에 어려움을 맞이한 과학자들은 (2000인간 유전체는  1 후에 이뤄졌다) Celera Assembler[1]  Arachne[2] 같은 어셈블러를 개발하여서 1억에서 3 베이스의 유전체를 다룰  있도록 하였다 시도를 따라서몇몇의 다른 주요 유전체 시퀀싱 그룹들이 대규모의 어셈블러를 만들었고, AMOS[3]  같은 오픈소스 프로젝트도 시작되어서 오픈소스 체제에서 유전체 조립 기술의 최신 방법들을 도입하는 시도도 있었다.


염기서열 어셈블러가 어떻게 겹치는 부분으로 조각들을 갖다 맞추는지 보여주는 예제그림은 염기서열에 반복되는 부분이 있어서 생기는 문제도 보여준다.


2. EST 조립도구 - EST assemblers

Expressed Sequence Tag 혹은 EST 어셈블리는 유전체 어셈블리와는 여러가지 면에서 다르다. EST 시퀀스들은 세포의 전사된 mRNA이며 전체 유전체의 오직 일부분 만을 나타낸다유전체와EST 어셈블리는  알고리즘 자체에서 달라보인다예를 들어유전체는 종종 반복되는 시퀀스들이 특히 유전자와 유전자 사이 부분에 대량으로 있다. EST 유전자의 전사체를 나타내기 때문에, EST 그러한 부분이 없다반면에세포는 일정한 수의 유전자들을 아주 대량으로 전사하는 경향이 있다 (housekeeping genes). 그리고 이것은 어셈블 해야할 데이터에 비슷한 시퀀스들이 다수가 존재한 다는 것을 의미한다.
더군다나유전자는 때때로 유전체에서 겹치는 부분이 존재하기도 하지만 (sense-antisense transcription), 이상적으로는  부분들을 유전자 별로 따로 조립해야 한다. EST 어셈블리는 또한 alternative splicingtrans-splicingsingle-nucleotide polymorphismpost-transcriptional modification 같은 문제들 때문에  복잡해 지기도 한다.


3. 데노보와 맵핑 조립 - De-novo vs. mapping assembly

시퀀스 어셈블리는 두가지의 종류로 나눌  있다
     
데노보 (de-novo): 짧은 조각들을 맞춰서 완전한 길이의 (때때로는 새로운시퀀스들을 만드는  (De novo sequence assemblersde novo transcriptome assembly 참조)
     
맵핑 (mapping): 조각들을 이미 존재하는 뼈대 시퀀스에 맞춰서  뼈대 시퀀스와 동일하지는 않지만 비슷한 전체 시퀀스를 만드는 .

복잡성과 시간으로 봤을 데노보 어셈블리는 맵핑 어셈블리보다 몇배나 느리고 메모리도  요구한다이것은 대부분 어셈블리 알고리즘이 모든 조각들을 모든 다른 조각들에 비교한다는 사실때문이다 ( O(n2) 시간이 걸리지만해쉬를 이용하면 시간을 많이 단축할  있다). 앞서 나온 파쇄된 책과 비교한다면맵핑 어셈블리는 아주 비슷한 책이 견본으로 있는 것과 다름없다 (아마 주인공 이름과 지역 이름 정도는 바꼈을테지만). 데노보 어셈블리는  책이 과학 교과서인지소설인지카탈로그인지아니면 심지어 몇권이 섞여있는 지도 모르는 상태이므로  본격적으로 어렵다또한모든 파쇄조각들을 다른 파쇄조각들에 일일이 비교해야 하기도 한다.


4. 기술발전의 영향 - Influence of technological changes

시퀀스 어셈블리의 복잡함은 두가지 요인으로부터 결정된다조각의 갯수와  길이이다 많고   조각들은  많은 부분이 겹쳐서  나은 조립을   있게 되지만그것은 동시에 계산 알고리즘이 조각의 길이와 수에 따라 제곱 혹은 지수승으로 복잡해질  있기 때문에 문제를 일으킨다그리고 짧은 시퀀스들은 정렬하기에 빠르지만짧으면 짧을 수록 반복된 구간이나 비슷한 구간이 반복될 경우에 어셈블리를  복잡하게 만들기도 한다.
DNA 
시퀀싱의 아주 초반에는과학자들이 실험실에서 몇주간 일한다음에야 짧은 길이의 (주로 수십 베이스의시퀀스들을 단지 몇개만 얻을  있었다그러므로 시퀀스들을 정렬하는 데에는 수작업으로  분밖에 걸리지 않았었던 것이다.
1975
년에Sanger sequencing으로 불리는 Dideoxy termination 방법이 개발 되었고, 2000  까지  기술은 발전하여 완전히 자동으로 동작하는 기계들이 하루 24시간 내내 병렬적으로 시퀀싱을 가동할  있게 되었다전세계의 대형 유전체 센터들은  시퀀싱 기계들을 수백 수천대 가동하고 있었다그리고 그것은 조각의 길이가 800에서 900 베이스 정도 되고 시퀀싱 기계와 클로닝 벡터 (cloning vectors)에서 비롯한 에러율이 0.5에서 10퍼센트 정도 되는 유전체 전체 샷건 시퀀싱 프로젝트 (shotgun sequencing projects) 최적화된 어셈블러를 개발하도록 만들었다.
Sanger sequencing 
기술로 인해, 2만개에서 20만개의 조각을 가진 박테리아 유전체는 컴퓨터 한대에서 쉽게 어셈블리   있었다. 35백만개의 조각이 있는 인간 유전체같은    프로젝트들은 분산 컴퓨팅을 이용하여 대형 컴퓨터 센터가 필요했다.
2004, 2005
년에454 Life Sciences 파이로시퀀싱(pyrosequencing) 상업적으로 이용가능하게되었다 새로운 시퀀싱 기술은  Sanger 시퀀싱보다는 훨씬  짧은 조각들을 만들었지만 (당시에는  100 베이스지금은 400-500베이스고속대용량에 가격도 저렴했기 때문에 (Sanger 비해유전체 센터들은  기술을 많이 차용했다그리고 그것은 이러한 대량의 시퀀스 조각들을 효율적으로 처리할  있는 시퀀서의 개발을 이끌었다대용량의 데이터는 기술에 특화한 에러 패턴과 더불어 어셈블러의 발전을 늦추게 하는 요소였다. 2004 초반에는 454 개발한 Newbler 어셈블러만이 사용가능 했다. 2007 중반에 Chevreux et al. 개발한 MIRA 어셈블러의 혼합버전이 454 시퀀스 어셈블리와 454 시퀀스와 Sanger 혼합된 시퀀스 어셈블리가 가능한 최초의 무료 소프트웨어였다서로 다른 기술로 나온 시퀀스들을 어셈블리 하기 위해 하이브리드 어셈블리 hybrid assembly 개념도 탄생하게 되었다.
2006
 부터일루미나 Illumina ( Solexa) 기술이 가능하여져서 하나의 시퀀싱 기계에서 한번 돌릴때마다 1억개의 조각이 나오게 되었다인간 유전체 프로젝트의 35백만 조각이 이전에는 수백대의 기계로 몇년이 걸렸다는 것과 비교해보라일루미나 시퀀싱은 처음에는 36베이스로 조각길이가 제한되어 있었다이것은 데노보 어셈블리는 (de novo transcriptome assembly 같은거의 불가능한 길이엇다하지만 새로운 기술은  조각 길이를 100베이스 이상으로 끌어올렸고, 2007 말에는 Dohm et al. 개발한 the SHARCGS assembler  Solexa read 사용한 어셈블리를 하는 어셈블러로 최초로 발표되었다.
후에SOLiDIon Torrent and SMRT 같은 새로운 기술이 발표되었고Nanopore sequencing 같은 기술도 부상하고 있다.


5. 탐욕적 알고리즘 - Greedy algorithm

염기 서열 조각이 여러개 주어졌을 때에알고리즘의 목적은 가장 짧은 supersequence 찾는 것이다.
    1. 
모든 조각을 1:1 정렬해서 계산한다.
    2. 
가장 많이 겹치는  개의 조각을 고른다
    3. 
선택한 조각을 겹쳐서 합친다.
    4. 2
 3 조각이  하나 남을 때까지 반복한다.
결과는 문제에 궁극적인 정답이 항상 되지는 않는다.


6. 유전체 어셈블러의  - Notable assemblers

아래의 표는 데노보 어셈블리가 가능한 유전체 어셈블러 몇몇의 예이다.

Name

Type

Technologies

Author

Presented /Last updated

Licence*

DNASTAR Lasergene Genomics Suite

(large) genomes, exomes, transcriptomes, metagenomes, ESTs

Illumina, ABI SOLiD, Roche 454, Ion Torrent, Solexa, Sanger

DNASTAR

2007 / 2016

C

Newbler

genomes, ESTs

454, Sanger

454/Roche

2004/2012

C

Phrap

genomes

Sanger, 454, Solexa

Green, P.

1994 / 2008

C / NC-A

SPAdes

(small) genomes, single-cell

Illumina, Solexa, Sanger, 454, Ion Torrent, PacBio, Oxford Nanopore

Bankevich, A et al.

2012 / 2017

OS

Velvet

(small) genomes

Sanger, 454, Solexa, SOLiD

Zerbino, D. et al.

2007 / 2011

OS

*Licences: OS = Open Source; C = Commercial; C / NC-A = Commercial but free for non-commercial and academics


7. 외부 링크 - See also

De novo sequence assemblers
Sequence alignment
De novo transcriptome assembly
Set cover problem
List of sequenced animal genomes


8. 참조 - References

Myers, E. W.; Sutton, GG; Delcher, AL; Dew, IM; Fasulo, DP; Flanigan, MJ; Kravitz, SA; Mobarry, CM; et al. (March 2000). "A whole-genome assembly of Drosophila"Science287 (5461): 2196–204. Bibcode:2000Sci...287.2196M. PMID 10731133doi:10.1126/science.287.5461.2196.

Batzoglou, S.; Jaffe, DB; Stanley, K; Butler, J; Gnerre, S; Mauceli, E; Berger, B; Mesirov, JP; Lander, ES (January 2002). "ARACHNE: a whole-genome shotgun assembler"Genome Research12 (1): 177–89. PMC 155255  PMID 11779843doi:10.1101/gr.208902.

AMOS page with links to various papers
 
Copy in Google groups of the post announcing MIRA 2.9.8 hybrid version in the bionet.software Usenet group

Dohm, J. C.; Lottaz, C.; Borodina, T.; Himmelbauer, H. (November 2007). "SHARCGS, a fast and highly accurate short-read assembly algorithm for de novo genomic sequencing"Genome Research17 (11): 1697–706. PMC 2045152  PMID 17908823doi:10.1101/gr.6435207.

list of software including mapping assemblers in the SeqAnswers discussion forum.

 


728x90
반응형
Posted by Gun들지마