반응형

최근 생명정보학에 관심있으신 고등학생들을 대상으로 진행한 과학영재캠프에서 발표한 내용입니다.

728x90
반응형
Posted by Gun들지마
반응형

Part 1에 이은 Part 2입니다. Part 3까지 있긴한데 블로그에 올릴지는 잘 모르겠습니다.

설명이 필요하시거나 질문이 있으시면 언제든지 연락주세요

 

728x90
반응형
Posted by Gun들지마
반응형


Expressed sequence tag


글은 위키피디아의 Expressed Sequence Tag 번역한 글입니다원문 여기서 찾으실 있습니다.

유전학(genetics)에서발현 유전자 배열표(expressed sequence tag, EST, 발현배열표식, 발현유전자단편 으로 불리기도함) 상보적 DNA(cDNA염기 서열의 짧은 부분 서열이다.[1] EST 유전자의 전사체(transcripts) 식별하기 위해 사용되기도 하고, 유전자의 발견과 유전자-염기서열의 결정에 지대한 역할을 한다.[2] EST 식별은 빠르게 진행되어, 현재 공개 데이터베이스에 742십만개의 EST 제공된다 (GenBank).
EST
복제된 cDNA 단발성 시퀀싱(sequencing)으로 발생한다. EST 생성에 사용되는 cDNA 일반적으로 cDNA 라이브러리(cDNA library) 개별 클론이다. 시퀀싱의 결과는 상대작으로 품질이 낮은 조각으로, 현재의 기술로는 대략 500에서 800개의 뉴클레오티드(nucleotides) 제한된다. 이러한 클론이 mRNA 상보적인 DNA 구성되어있기 때문에, EST 발현된 유전자의 일부를 나타낸다. 이들은 cDNA/mRNA 시퀀스 혹은 주형가닥(template strand) mRNA 역상보체(reverse complement) 데이터베이스에서 나타내어질 수도 있다

EST
방사 하이브리드 맵핑 (radiation hybrid mapping), 해피 맵핑(Happy mapping), 또는 FISH 같은 물리적인 맵핑 (physical mapping) 기술들을 통하여 특정 염색체의 위치에 맵핑할 있다. 대안으로는, 만약 EST 유래한 개체의 유전체가 시퀀싱되어 있다면, EST 서열을 유전체에 컴퓨터를 사용하여 정렬시킬 있다.

인간 유전자 (human set of genes) 대한 현재의 (2006 현재) 이해에는 EST 증거만으로 보았을때에 수천개의 유전자가 존재한다. 이와 관련하여, EST 이러한 유전자의 예측된 전사체를 정확히 담는 도구가 되며, 이것은 유전자의 단백질과 궁극적으로 기능에 관한 예측으로 이끌 있다. 또한, EST 획득되어지는 상황 (조직, 기관, 등의 질병상태) 해당 유전자가 활동하는 여부에 대한 정보를 제공한다. EST 유전자 발현 (gene expression) 결정하기위해 사용되는 DNA 마이크로어레이(DNA microarrays) 대한 정밀한 탐색기의 설계를 서용하는 충분한 정보를 포함하고 있다

일부 저자들은 "EST"라는 용어를 태그 이외에 더이상의 추가 정보가 거의 혹은 전혀 없는 유전자를 기술하기 위해 사용하기도 한다.[3]

Nagaraj et al. (2007)
EST 중요성과 특성, EST 데이터셋 분석 방법과 다양한 생물 분야에서의 적용을 정리 리뷰했다.[4]


목차 - Contents

1 역사History
2 데이터와 주석 출처Sources of data and annotations
2.1 dbEST
2.2 EST contigs
2.3 조직 정보Tissue information
3
외부링크External links



1. 역사 - History


1979
년에 하버드와 캘리포니아공대 팀은 DNA에서 mRNA 만드는 기본 개념을 확장하여서 in vitro 세균성 플라스미드로 라이브러리를 증폭하였다.[5]
1982
년에, Greg Sutcliffe 동료들은 시퀀싱을 위한 이러한 cDNA 라이브러리로부터 무작위 또는 반무작위 클론을 선택하는 아이디어를 내었다.[6]
1983
년에, Putney et al. 토끼 근육 cDNA 라이브러리로 부터 178개의 클론을 시퀀스했다.[7]
1991
년에 아담스와 동료들은 EST라는 용어를 만들어서 보다 체계적인 시퀀싱 프로젝트를 (600개의뇌 cDNA 시작하여) 시작했다.[2]


2. 데이터 주석의 출처 - Sources of data and annotations

2.1 dbEST

dbEST 1992년에 설립된 Genbank 부서이다GenBank에서, dbEST 데이터는 연구실들에 의해 직접 제출되고 큐레이팅 되지 않는다.


2.2 EST contigs

EST 컨티 그트를 만드는 것은 사소한 것이 아니며인공물 ( 개의 다른 유전자 산물을 포함하는  티그) 산출  수있다유기체의 완전한 게놈 서열이 이용 가능하고 전사 물에 주석이 달린 경우연속체를 우회하여 전사 물을 EST 직접 매치시킬 수있다 접근법은 TissueInfo 시스템에서 사용되며 (아래 참조게놈 데이터베이스의 주석을 EST 데이터에서 제공하는 조직 정보에 쉽게 연결할  있습니다.

EST
시퀀싱 되는 방법 때문에, 많은 별개의 EST들은 종종 개체의 동일한 mRNA 상응하는 시퀀스의 일부이다. 이후의 유전자 발견 분석을 위한 EST 갯수를 줄이는 노력의 일환으로, 몇몇 그룹이 EST EST contigs 조립했다. EST contig 제공하는 이러한 자원의 예로는 TIGR gene indices,[8] Unigene,[9] and STACK [10] 등이 있다.
EST contig
만드는 것은 쉬운 일이 아니며, (두개의 다른 유전자 전사체를 포함하는 contigs 등의) 오류를 산출할 있다. 개체의 완전한 유전체 시퀀스가 이용가능하고 전사체에 주석이 달린 경우에는, contig 어셈블리를 지나쳐서 직접적으로 EST 전사체를 매치시킬 있다. 이러한 접근법은 TissueInfo system에서 사용되며 (아래 참조) 유전체 데이터베이스에서 주석과 EST 데이터로 제공된 조직 정보에 연결하는 것을 쉽게 만든다.


2.3 조직정보 - Tissue information[edit]

EST 높은 처리량 분석은 종종 유사한 데이터 관리 문제를 겪습니다 번째 과제는 EST 라이브러리의 조직 ​​출처가 dbEST에서 평이한 영어로 기술되어 있다는 것입니다이로 인해 동일한 조직에서 2 개의 EST 라이브러리가 시퀀싱되었음을 모호하지 않게 확인할 수있는 프로그램을 작성하기가 어렵습니다유사하게조직에 대한 질병 상태는 계산  친숙한 방식으로 주석이 달려 있지 않다예를 들어라이브러리의  기원은 종종 조직 명과 혼합된다 (예를 들어조직  "아교 모세포종" EST 라이브러리가  조직으로부터 서열되고 질병 상태가 암인 것을 나타낸다). [12] 주목할만한 암을 제외하고 질병 상태는 종종 dbEST 항목에 기록되지 않습니다. TissueInfo 프로젝트는 이러한 문제를 해결하기 위해 2000 년에 시작되었습니다 프로젝트는 조직 기원과 질병 상태 ( / 비암) 명확히하기 위해  레이션  데이터 (매일 업데이트 ) 제공하고시상 하부가 뇌의 일부인 지식을 공식화하는 조직과 기관을 연결하는 조직 온톨로지를 제공합니다  두뇌는 중추 신경계의 일부이다.) 시퀀싱  게놈의 transcript annotation dbEST 데이터로 계산  조직 발현 프로파일을 연결하는 오픈 소스 소프트웨어를 배포한다.
EST
고속대량 분석은 종종 유사한 데이터 관리 문제를 겪는다. 첫번째 문제는 EST 라이브러리의 출처가 dbEST에서 평이한 영어로 기술되어 있다는 것이다.[11] 이로 인해 두개의 EST 라이브러리가 동일한 조직에서 시퀀스 되었는 지의 여부를 모호하지 않게 결정할 있는 프로그램을 만들기가 어렵다. 마찬가지로, 조직에 대한 질병 상태는 전산 작업에 용이하게 주석이 달려있지는 않다. 예를 들어서, 라이브러리의 기원은 조직 명과 종종 섞인다. (예로 조직명인 "아교 모세포종, glioblastoma" EST 라이브러리가 조직으로 부터 시퀀스 되었고, 질병상태는 암을 의미한다.)[12] 주목할만한 예외인 암과 함께, dbEST 항목에 질병 상태는 종종 기록되지 않는다. TissueInfo 프로젝트는 이러한 문제를 해결하기 위해 2000년에 시작되었다. 프로젝트는 (매일 업데이트 되는) 질병 상태 (/암이 아닌) 조직 출처를 명확하게 하는 큐레이팅된 데이터를 제공하며, 조직과 기관을 연결하는 조직 온톨로지를 제공하고 (, 시상하부가 뇌의 일부이고 뇌가 중추신경의 일부라는 지식을 체계화함), 시퀀싱된 유전제부터 dbEST 데이터로 계산된 조직 발현 프로파일까지 전사체 주석을 위한 오픈소스 소프트웨어를 배포한다.[13]


3. 외부링크 - External links

ESTs Factsheet from NCBI, a good and easy to read introduction to ESTs.
The NCBI Handbook, Part 3, Chapter 21 has a very nice overview.
ECLAT a server for the classification of ESTs from mixed EST pools (from fungus infected plants) using codon usage.
The current number of EST sequences in the GenBank division dbEST.
Web Resources for EST data and analysis
[1] TissueInfo project: Curated EST tissue provenance, tissue ontology, open-source software.
http://www.estinformatics.org/ Web resource contains all publicly available ESTs which has been processed through various cleaning steps where contaminating DNA e.g. vector, E coli and short sequences (<100bp) removed.

 

728x90
반응형
Posted by Gun들지마
반응형

[번역] Sequence Assembly - 염기서열 조립유전체 조립

   

 글은 위키피디아의 Sequence Assembly 항목을 번역한 것입니다영어 원문은 여기 찾으실  있습니다.
주의생명정보학은 빠르게 발전하는 학문이며 위키피디아 글은 예전에 작성되었기 때문에 현재 발전된 기술  소프트웨어들은 생략이 많이 되어있습니다.


생명정보학에서염기서열 조립 (sequence assembly) 본래의 염기서열을 알아내기 위해 조각들을 정렬하고 합쳐서  기다란 DNA 서열로 만드는 것을 의미한다이것은 DNA 시퀀싱 기술이  번에 유전체 전체를 읽을 수가 없고사용하는 기술에 따라, 20에서 30,000 베이스 사이의 작은 조각들로만 읽을 수가 있기 때문이다. Reads라고 불리는  작은 조각들은 주로 유전체나 EST 샷건 시퀀싱 (shotgun sequencing) 하는 것으로부터 생긴다.
유전체 조립 문제를 비유하자면같은  여러 권을 각각 다른 분쇄기에 파쇄한 다음 조각들만 가지고 책의 내용을 파악하는 것과 같다 작업의 당연한 어려움에 더불어서실제적으로도  가지 추가적인 문제가 있다: 1) 원본은 내용이 똑같은 문단이  번씩 반복된다. 2) 조각들 중에 조각내는 과정에서 생긴 오탈자가 있다. 3) 다른 책에서 생긴 조각이 들어갈 가능성도 있다그리고 4) 몇몇 조각들은 아예 알아볼 수가 없다.


목차 - Contents

유전체 조립 도구 (어셈블Genome assemblers
2 EST 조립 도구 EST assemblers
데노보와 맵핑 조립 De-novo vs. mapping assembly
기술 발전의 영향 Influence of technological changes
탐욕적 알고리즘 Greedy algorithm
유전체 조립 도구의  Notable assemblers
외부 링크 See also
참조 문헌 References


1. 유전체 조립 도구 (어셈블러) - Genome assemblers

최초의 시퀀스 어셈블러는 1980년대 후반과 1990년대 초반에 programs to piece together vast quantities of fragments generated by automated sequencing instruments called DNA 시퀀서 (DNA sequencers) 불리는 자동 시퀀싱 기계가 출력해  방대한 양의 조각들을 짜집기 위해 간단한 시퀀스 정렬 프로그램의 변형된 버전으로나오기 시작했다시퀀싱 하는 대상 생물이 크기와 복잡성에서 점차 증대 함에 따라 유전체 프로젝트 (genome projects) 필요한 어셈블러는 더욱 복잡한 방법이 필요하게 되었다컴퓨터 클러스터에서 수행할 테라바이트 급의 시퀀싱 데이터동일하거나 아주 비슷한 (반복 구간으로 불리는시퀀스들은최악의 경우에알고리즘의 시간과 리소스를 기하급수적으로 늘릴  있었고조각에 존재하는 시퀀싱 기계로 인한 에러들은어셈블리 자체를 혼란에 빠뜨릴  있었기 때문이다
최초의 대형 진핵생물 유전체인 초파리 Drosophila melanogaster 조립하는 데에 어려움을 맞이한 과학자들은 (2000인간 유전체는  1 후에 이뤄졌다) Celera Assembler[1]  Arachne[2] 같은 어셈블러를 개발하여서 1억에서 3 베이스의 유전체를 다룰  있도록 하였다 시도를 따라서몇몇의 다른 주요 유전체 시퀀싱 그룹들이 대규모의 어셈블러를 만들었고, AMOS[3]  같은 오픈소스 프로젝트도 시작되어서 오픈소스 체제에서 유전체 조립 기술의 최신 방법들을 도입하는 시도도 있었다.


염기서열 어셈블러가 어떻게 겹치는 부분으로 조각들을 갖다 맞추는지 보여주는 예제그림은 염기서열에 반복되는 부분이 있어서 생기는 문제도 보여준다.


2. EST 조립도구 - EST assemblers

Expressed Sequence Tag 혹은 EST 어셈블리는 유전체 어셈블리와는 여러가지 면에서 다르다. EST 시퀀스들은 세포의 전사된 mRNA이며 전체 유전체의 오직 일부분 만을 나타낸다유전체와EST 어셈블리는  알고리즘 자체에서 달라보인다예를 들어유전체는 종종 반복되는 시퀀스들이 특히 유전자와 유전자 사이 부분에 대량으로 있다. EST 유전자의 전사체를 나타내기 때문에, EST 그러한 부분이 없다반면에세포는 일정한 수의 유전자들을 아주 대량으로 전사하는 경향이 있다 (housekeeping genes). 그리고 이것은 어셈블 해야할 데이터에 비슷한 시퀀스들이 다수가 존재한 다는 것을 의미한다.
더군다나유전자는 때때로 유전체에서 겹치는 부분이 존재하기도 하지만 (sense-antisense transcription), 이상적으로는  부분들을 유전자 별로 따로 조립해야 한다. EST 어셈블리는 또한 alternative splicingtrans-splicingsingle-nucleotide polymorphismpost-transcriptional modification 같은 문제들 때문에  복잡해 지기도 한다.


3. 데노보와 맵핑 조립 - De-novo vs. mapping assembly

시퀀스 어셈블리는 두가지의 종류로 나눌  있다
     
데노보 (de-novo): 짧은 조각들을 맞춰서 완전한 길이의 (때때로는 새로운시퀀스들을 만드는  (De novo sequence assemblersde novo transcriptome assembly 참조)
     
맵핑 (mapping): 조각들을 이미 존재하는 뼈대 시퀀스에 맞춰서  뼈대 시퀀스와 동일하지는 않지만 비슷한 전체 시퀀스를 만드는 .

복잡성과 시간으로 봤을 데노보 어셈블리는 맵핑 어셈블리보다 몇배나 느리고 메모리도  요구한다이것은 대부분 어셈블리 알고리즘이 모든 조각들을 모든 다른 조각들에 비교한다는 사실때문이다 ( O(n2) 시간이 걸리지만해쉬를 이용하면 시간을 많이 단축할  있다). 앞서 나온 파쇄된 책과 비교한다면맵핑 어셈블리는 아주 비슷한 책이 견본으로 있는 것과 다름없다 (아마 주인공 이름과 지역 이름 정도는 바꼈을테지만). 데노보 어셈블리는  책이 과학 교과서인지소설인지카탈로그인지아니면 심지어 몇권이 섞여있는 지도 모르는 상태이므로  본격적으로 어렵다또한모든 파쇄조각들을 다른 파쇄조각들에 일일이 비교해야 하기도 한다.


4. 기술발전의 영향 - Influence of technological changes

시퀀스 어셈블리의 복잡함은 두가지 요인으로부터 결정된다조각의 갯수와  길이이다 많고   조각들은  많은 부분이 겹쳐서  나은 조립을   있게 되지만그것은 동시에 계산 알고리즘이 조각의 길이와 수에 따라 제곱 혹은 지수승으로 복잡해질  있기 때문에 문제를 일으킨다그리고 짧은 시퀀스들은 정렬하기에 빠르지만짧으면 짧을 수록 반복된 구간이나 비슷한 구간이 반복될 경우에 어셈블리를  복잡하게 만들기도 한다.
DNA 
시퀀싱의 아주 초반에는과학자들이 실험실에서 몇주간 일한다음에야 짧은 길이의 (주로 수십 베이스의시퀀스들을 단지 몇개만 얻을  있었다그러므로 시퀀스들을 정렬하는 데에는 수작업으로  분밖에 걸리지 않았었던 것이다.
1975
년에Sanger sequencing으로 불리는 Dideoxy termination 방법이 개발 되었고, 2000  까지  기술은 발전하여 완전히 자동으로 동작하는 기계들이 하루 24시간 내내 병렬적으로 시퀀싱을 가동할  있게 되었다전세계의 대형 유전체 센터들은  시퀀싱 기계들을 수백 수천대 가동하고 있었다그리고 그것은 조각의 길이가 800에서 900 베이스 정도 되고 시퀀싱 기계와 클로닝 벡터 (cloning vectors)에서 비롯한 에러율이 0.5에서 10퍼센트 정도 되는 유전체 전체 샷건 시퀀싱 프로젝트 (shotgun sequencing projects) 최적화된 어셈블러를 개발하도록 만들었다.
Sanger sequencing 
기술로 인해, 2만개에서 20만개의 조각을 가진 박테리아 유전체는 컴퓨터 한대에서 쉽게 어셈블리   있었다. 35백만개의 조각이 있는 인간 유전체같은    프로젝트들은 분산 컴퓨팅을 이용하여 대형 컴퓨터 센터가 필요했다.
2004, 2005
년에454 Life Sciences 파이로시퀀싱(pyrosequencing) 상업적으로 이용가능하게되었다 새로운 시퀀싱 기술은  Sanger 시퀀싱보다는 훨씬  짧은 조각들을 만들었지만 (당시에는  100 베이스지금은 400-500베이스고속대용량에 가격도 저렴했기 때문에 (Sanger 비해유전체 센터들은  기술을 많이 차용했다그리고 그것은 이러한 대량의 시퀀스 조각들을 효율적으로 처리할  있는 시퀀서의 개발을 이끌었다대용량의 데이터는 기술에 특화한 에러 패턴과 더불어 어셈블러의 발전을 늦추게 하는 요소였다. 2004 초반에는 454 개발한 Newbler 어셈블러만이 사용가능 했다. 2007 중반에 Chevreux et al. 개발한 MIRA 어셈블러의 혼합버전이 454 시퀀스 어셈블리와 454 시퀀스와 Sanger 혼합된 시퀀스 어셈블리가 가능한 최초의 무료 소프트웨어였다서로 다른 기술로 나온 시퀀스들을 어셈블리 하기 위해 하이브리드 어셈블리 hybrid assembly 개념도 탄생하게 되었다.
2006
 부터일루미나 Illumina ( Solexa) 기술이 가능하여져서 하나의 시퀀싱 기계에서 한번 돌릴때마다 1억개의 조각이 나오게 되었다인간 유전체 프로젝트의 35백만 조각이 이전에는 수백대의 기계로 몇년이 걸렸다는 것과 비교해보라일루미나 시퀀싱은 처음에는 36베이스로 조각길이가 제한되어 있었다이것은 데노보 어셈블리는 (de novo transcriptome assembly 같은거의 불가능한 길이엇다하지만 새로운 기술은  조각 길이를 100베이스 이상으로 끌어올렸고, 2007 말에는 Dohm et al. 개발한 the SHARCGS assembler  Solexa read 사용한 어셈블리를 하는 어셈블러로 최초로 발표되었다.
후에SOLiDIon Torrent and SMRT 같은 새로운 기술이 발표되었고Nanopore sequencing 같은 기술도 부상하고 있다.


5. 탐욕적 알고리즘 - Greedy algorithm

염기 서열 조각이 여러개 주어졌을 때에알고리즘의 목적은 가장 짧은 supersequence 찾는 것이다.
    1. 
모든 조각을 1:1 정렬해서 계산한다.
    2. 
가장 많이 겹치는  개의 조각을 고른다
    3. 
선택한 조각을 겹쳐서 합친다.
    4. 2
 3 조각이  하나 남을 때까지 반복한다.
결과는 문제에 궁극적인 정답이 항상 되지는 않는다.


6. 유전체 어셈블러의  - Notable assemblers

아래의 표는 데노보 어셈블리가 가능한 유전체 어셈블러 몇몇의 예이다.

Name

Type

Technologies

Author

Presented /Last updated

Licence*

DNASTAR Lasergene Genomics Suite

(large) genomes, exomes, transcriptomes, metagenomes, ESTs

Illumina, ABI SOLiD, Roche 454, Ion Torrent, Solexa, Sanger

DNASTAR

2007 / 2016

C

Newbler

genomes, ESTs

454, Sanger

454/Roche

2004/2012

C

Phrap

genomes

Sanger, 454, Solexa

Green, P.

1994 / 2008

C / NC-A

SPAdes

(small) genomes, single-cell

Illumina, Solexa, Sanger, 454, Ion Torrent, PacBio, Oxford Nanopore

Bankevich, A et al.

2012 / 2017

OS

Velvet

(small) genomes

Sanger, 454, Solexa, SOLiD

Zerbino, D. et al.

2007 / 2011

OS

*Licences: OS = Open Source; C = Commercial; C / NC-A = Commercial but free for non-commercial and academics


7. 외부 링크 - See also

De novo sequence assemblers
Sequence alignment
De novo transcriptome assembly
Set cover problem
List of sequenced animal genomes


8. 참조 - References

Myers, E. W.; Sutton, GG; Delcher, AL; Dew, IM; Fasulo, DP; Flanigan, MJ; Kravitz, SA; Mobarry, CM; et al. (March 2000). "A whole-genome assembly of Drosophila"Science287 (5461): 2196–204. Bibcode:2000Sci...287.2196M. PMID 10731133doi:10.1126/science.287.5461.2196.

Batzoglou, S.; Jaffe, DB; Stanley, K; Butler, J; Gnerre, S; Mauceli, E; Berger, B; Mesirov, JP; Lander, ES (January 2002). "ARACHNE: a whole-genome shotgun assembler"Genome Research12 (1): 177–89. PMC 155255  PMID 11779843doi:10.1101/gr.208902.

AMOS page with links to various papers
 
Copy in Google groups of the post announcing MIRA 2.9.8 hybrid version in the bionet.software Usenet group

Dohm, J. C.; Lottaz, C.; Borodina, T.; Himmelbauer, H. (November 2007). "SHARCGS, a fast and highly accurate short-read assembly algorithm for de novo genomic sequencing"Genome Research17 (11): 1697–706. PMC 2045152  PMID 17908823doi:10.1101/gr.6435207.

list of software including mapping assemblers in the SeqAnswers discussion forum.

 


728x90
반응형
Posted by Gun들지마
반응형

이 글은 2017년 2월 Bioinformatics 저널에 실린 "Changes associated with Ebola virus adaptation to novel species"를 요약 및 번역한 것입니다.


에볼라 바이러스 (Ebola virus)는 원래 쥐 등의 설치류에게 전염되지는 않지만 유전자 변형으로 감염되어 질병을 일으킬 수 있습니다. 불과 몇년 전에 아프리카에 있었던 대규모의 발병은 수많은 희생자를 낳았습니다.


현재까지, 에볼라 바이러스는 5개의 종류로 구분이 됩니다. 이 중 4개는 (Ebola virus, Sudan virus, Bundibugyo virus, Tai forest virus) 인간을 숙주로 삼지만, 나머지 하나 (Reston virus)는 사람을 제외한 유인원에게 감염이 됩니다.


이러한 숙주의 특정성때문에, 과학자들은 바이러스에 유전자 변형을 일으켜서 쥐 등의 설치류에게 감염시키는 연구를 해왔고, 몇몇의 연구는 성공적으로 감염시킬 수 있었습니다.


이 논문은 그러한 성공적인 사례들을 종합하고 분석하여서, 어떠한 인자가 바이러스에게 새로운 숙주를 감염시킬 수 있는 능력을 가지게 하는지 조사했습니다. 특히 기니피그에게 감염시킨 유전자 변형 바이러스 세 종류 (Cross et al., 2015; Dowall et al., 2014; Vochkov et al., 2000)와 쥐에게 감연시킨 한 종류 (Ebihara et al., 2006)의 바이러스를 분석하였습니다.


이들을 종합한 결과, 단백질의 성질을 변화시키는 33개의 특정한 돌연변이를 발견할 수 있었습니다.


(사진 출처: Table 1. Pappalardo et al., Bioinformatics 2017) 세로줄은 돌연변이가 발견된 단백질의 종류이고, 가로줄은 각각 독립된 연구논문입니다. 숫자는 발견된 돌연변이의 수입니다.

NP: nucleoprotein, GP: glycoprotein, VP: viral protein


NP와 GP, 그리고 VP24의 돌연변이가 모든 바이러스에서 발견됩니다. 그리고 일부의 케이스에서 공통된 돌연변이도 발견할 수 있습니다. (L, VP35)

여기서 NP (nucleoprotein)은 VP30, VP35, L 등과 함께 바이러스의 복제 매커니즘을 담당하고 있습니다. NP는 또한 바이러스가 숙주의 면역체계에 의해 발견되지 못하게 하는 역할도 합니다. GP (glycoprotein)은 숙주세포에 바이러스가 침입할 수 있도록 도와줍니다. 

또한 VP24는 바이러스의 nucleocapsid를 형성하고, 바이러스의 복제를 돕고, 숙주의 면역전달을 막는 등의 역할을 합니다.


이러한 돌연변이들을 종합하여 본 결과, 바이러스가 유전자 변형을 일으켜서 새로운 숙주를 감염시키기 위해서는 아주 적은 수의 돌연변이로도 가능하다고 합니다. 특히, VP24에 일어난 돌연변이는 새로운 숙주 감염에 결정적인 역할을 함으로써, 단지 5개이하의 돌연변이 만으로도 전혀 다른 종의 생물을 감염시킬수 있게합니다.


결론적으로, 바이러스가 새로운 숙주를 감염시킬 수 있는 능력은 아주 쉽게 일어날 수 있으며 실제로 위에서 언급한 5가지 종류의 에볼라 바이러스에서 마지막인 Reston virus는 지금은 사람을 제외한 유인원만을 감염시킨다고 알려져있지만, 이 변종이 돼지에 감염되고 거기서 다시 사람에게 공기를 통하여 감염될 수도 있다는 연구가 나와있습니다.

만약 조금의 변형으로 이 바이러스가 인간과 밀접한 반려동물들, 즉 개나 고양이 혹은 가축들을 감염시킬 수 있게 된다면 그 여파는 걷잡을 수 없이 커질 것으로 보입니다.





728x90
반응형
Posted by Gun들지마