'생명정보학' 태그의 글 목록

'생명정보학'에 해당되는 글 9건

2023.08.04 생명정보학자가 되는 방법 (feat. R & K-BioX)
2022.05.09 내 노트북에서 무작정 따라해보는 RNA-Seq 분석 - Part 2 1
2018.01.09 [번역] Expressed Sequence Tag
2018.01.09 [번역] Sequence Assembly - 염기서열 조립, 유전체 조립
2017.06.29 에볼라 바이러스의 전염성 - 생명정보학을 이용한 결론 도출

생명정보학자가 되는 방법 (feat. R & K-BioX)

최근 생명정보학에 관심있으신 고등학생들을 대상으로 진행한 과학영재캠프에서 발표한 내용입니다.

728x90

'Biological Science > Bioinformatics' 카테고리의 다른 글

싱글셀 Seurat 데이터로 PCA 만들어보기 (feat. PLS-DA) (1)	2023.05.12
R에서 Seurat 싱글셀 데이터로 GSEA 해보기 (11)	2023.02.23
싱글셀 시퀀싱 클러스터 Annotation 방법과 팁 (3)	2023.01.06
싱글셀 RNASeq 데이터에서 DoubletFinder로 더블렛 없애기 (6)	2022.11.07
싱글셀 시퀀싱 을 이용한 RNA Velocity란 (1)	2022.07.19

Posted by Gun들지마

내 노트북에서 무작정 따라해보는 RNA-Seq 분석 - Part 2

Part 1에 이은 Part 2입니다. Part 3까지 있긴한데 블로그에 올릴지는 잘 모르겠습니다.

설명이 필요하시거나 질문이 있으시면 언제든지 연락주세요

728x90

'Biological Science > Bioinformatics' 카테고리의 다른 글

파이썬 Pandas로 머신러닝 기초 배워보기 (2/5) (0)	2022.05.11
파이썬 Pandas로 머신러닝 기초 배워보기 (1/5) (0)	2022.05.10
내 노트북에서 무작정 따라해보는 RNA-Seq 분석 - Part 1 (0)	2022.05.09
[펌]박사 학위 또는 포닥을 Bioinformatics/Computational Biology로 해야하는 탑 N 가지 이유 (0)	2017.06.15
FPKM and read counts in RNA-Seq (0)	2017.06.14

Posted by Gun들지마

[번역] Expressed Sequence Tag

Expressed sequence tag

이 글은 위키피디아의 Expressed Sequence Tag을 번역한 글입니다. 원문은 여기서 찾으실 수 있습니다.

유전학(genetics)에서, 발현 유전자 배열표(expressed sequence tag, EST, 발현배열표식, 발현유전자단편 등으로 불리기도함)는 상보적 DNA(cDNA) 염기 서열의 짧은 부분 서열이다.^[1] EST는 유전자의 전사체(transcripts)를 식별하기 위해 사용되기도 하고, 유전자의 발견과 유전자-염기서열의 결정에 지대한 역할을 한다.^[2] EST의 식별은 빠르게 진행되어, 현재 공개 데이터베이스에 약 7천4백2십만개의 EST가 제공된다 (예: GenBank).
EST는 복제된 cDNA의 단발성 시퀀싱(sequencing)으로 발생한다. EST 생성에 사용되는 cDNA는 일반적으로 cDNA 라이브러리(cDNA library)의 개별 클론이다. 시퀀싱의 결과는 상대작으로 품질이 낮은 조각으로, 현재의 기술로는 대략 500에서 800개의 뉴클레오티드(nucleotides)로 제한된다. 이러한 클론이 mRNA에 상보적인 DNA로 구성되어있기 때문에, EST는 발현된 유전자의 일부를 나타낸다. 이들은 cDNA/mRNA 시퀀스 혹은 주형가닥(template strand)인 mRNA의 역상보체(reverse complement)로 데이터베이스에서 나타내어질 수도 있다.

EST는 방사 하이브리드 맵핑 (radiation hybrid mapping), 해피 맵핑(Happy mapping), 또는 FISH와 같은 물리적인 맵핑 (physical mapping) 기술들을 통하여 특정 염색체의 위치에 맵핑할 수 있다. 대안으로는, 만약 EST가 유래한 개체의 유전체가 시퀀싱되어 있다면, EST 서열을 그 유전체에 컴퓨터를 사용하여 정렬시킬 수 있다.

인간 유전자 (human set of genes)에 대한 현재의 (2006년 현재) 이해에는 EST 증거만으로 보았을때에 수천개의 유전자가 존재한다. 이와 관련하여, EST는 이러한 유전자의 예측된 전사체를 더 정확히 담는 도구가 되며, 이것은 그 유전자의 단백질과 궁극적으로 그 기능에 관한 예측으로 이끌 수 있다. 또한, 이 EST가 획득되어지는 상황 (조직, 기관, 암 등의 질병상태)는 해당 유전자가 활동하는 여부에 대한 정보를 제공한다. EST는 유전자 발현 (gene expression)을 결정하기위해 사용되는 DNA 마이크로어레이(DNA microarrays)에 대한 정밀한 탐색기의 설계를 서용하는 충분한 정보를 포함하고 있다.

일부 저자들은 "EST"라는 용어를 태그 이외에 더이상의 추가 정보가 거의 혹은 전혀 없는 유전자를 기술하기 위해 사용하기도 한다.^[3]

Nagaraj et al. (2007)은 EST의 중요성과 특성, EST 데이터셋 분석 방법과 다양한 생물 분야에서의 그 적용을 정리 및 리뷰했다.^[4]

목차 - Contents

1 역사 - History
2 데이터와 주석 출처 - Sources of data and annotations
2.1 dbEST
2.2 EST contigs
2.3 조직 정보 - Tissue information
3 외부링크 - External links

1. 역사 - History

1979년에 하버드와 캘리포니아공대 팀은 DNA에서 mRNA를 만드는 기본 개념을 확장하여서 in vitro로 세균성 플라스미드로 그 라이브러리를 증폭하였다.^[5]
1982년에, Greg Sutcliffe와 그 동료들은 시퀀싱을 위한 이러한 cDNA 라이브러리로부터 무작위 또는 반무작위 클론을 선택하는 아이디어를 내었다.^[6]
1983년에, Putney et al.은 토끼 근육 cDNA 라이브러리로 부터 178개의 클론을 시퀀스했다.^[7]
1991년에 아담스와 그 동료들은 EST라는 용어를 만들어서 보다 체계적인 시퀀싱 프로젝트를 (600개의뇌 cDNA로 시작하여) 시작했다.^[2]

2. 데이터 및 주석의 출처 - Sources of data and annotations

2.1 dbEST

dbEST는 1992년에 설립된 Genbank의 한 부서이다. GenBank에서, dbEST의 데이터는 연구실들에 의해 직접 제출되고 큐레이팅 되지 않는다.

2.2 EST contigs

EST 컨티 그트를 만드는 것은 사소한 것이 아니며, 인공물 (두 개의 다른 유전자 산물을 포함하는 컨 티그)을 산출 할 수있다. 유기체의 완전한 게놈 서열이 이용 가능하고 전사 물에 주석이 달린 경우, 연속체를 우회하여 전사 물을 EST와 직접 매치시킬 수있다. 이 접근법은 TissueInfo 시스템에서 사용되며 (아래 참조) 게놈 데이터베이스의 주석을 EST 데이터에서 제공하는 조직 정보에 쉽게 연결할 수 있습니다.

EST가 시퀀싱 되는 방법 때문에, 많은 별개의 EST들은 종종 한 개체의 동일한 mRNA에 상응하는 시퀀스의 일부이다. 이후의 유전자 발견 분석을 위한 EST의 갯수를 줄이는 노력의 일환으로, 몇몇 그룹이 EST를 EST contigs로 조립했다. EST contig를 제공하는 이러한 자원의 예로는 TIGR gene indices,^[8] Unigene,^[9] and STACK ^[10]등이 있다.
EST contig를 만드는 것은 쉬운 일이 아니며, (두개의 다른 유전자 전사체를 포함하는 contigs 등의) 오류를 산출할 수 있다. 한 개체의 완전한 유전체 시퀀스가 이용가능하고 그 전사체에 주석이 달린 경우에는, contig 어셈블리를 지나쳐서 직접적으로 EST와 전사체를 매치시킬 수 있다. 이러한 접근법은 TissueInfo system에서 사용되며 (아래 참조) 유전체 데이터베이스에서 주석과 EST 데이터로 제공된 조직 정보에 연결하는 것을 쉽게 만든다.

2.3 조직정보 - Tissue information[edit]

EST의 높은 처리량 분석은 종종 유사한 데이터 관리 문제를 겪습니다. 첫 번째 과제는 EST 라이브러리의 조직 출처가 dbEST에서 평이한 영어로 기술되어 있다는 것입니다. 이로 인해 동일한 조직에서 2 개의 EST 라이브러리가 시퀀싱되었음을 모호하지 않게 확인할 수있는 프로그램을 작성하기가 어렵습니다. 유사하게, 조직에 대한 질병 상태는 계산 상 친숙한 방식으로 주석이 달려 있지 않다. 예를 들어, 라이브러리의 암 기원은 종종 조직 명과 혼합된다 (예를 들어, 조직 명 "아교 모세포종"은 EST 라이브러리가 뇌 조직으로부터 서열되고 질병 상태가 암인 것을 나타낸다). [12] 주목할만한 암을 제외하고 질병 상태는 종종 dbEST 항목에 기록되지 않습니다. TissueInfo 프로젝트는 이러한 문제를 해결하기 위해 2000 년에 시작되었습니다. 이 프로젝트는 조직 기원과 질병 상태 (암 / 비암)를 명확히하기 위해 큐 레이션 된 데이터 (매일 업데이트 됨)를 제공하고, 시상 하부가 뇌의 일부인 지식을 공식화하는 조직과 기관을 연결하는 조직 온톨로지를 제공합니다 그 두뇌는 중추 신경계의 일부이다.) 시퀀싱 된 게놈의 transcript annotation과 dbEST의 데이터로 계산 된 조직 발현 프로파일을 연결하는 오픈 소스 소프트웨어를 배포한다.
EST의 고속대량 분석은 종종 유사한 데이터 관리 문제를 겪는다. 첫번째 문제는 EST 라이브러리의 출처가 dbEST에서 평이한 영어로 기술되어 있다는 것이다.^[11] 이로 인해 두개의 EST 라이브러리가 동일한 조직에서 시퀀스 되었는 지의 여부를 모호하지 않게 결정할 수 있는 프로그램을 만들기가 어렵다. 마찬가지로, 조직에 대한 질병 상태는 전산 작업에 용이하게 주석이 달려있지는 않다. 예를 들어서, 한 라이브러리의 암 기원은 조직 명과 종종 섞인다. (예로 조직명인 "아교 모세포종, glioblastoma"는 EST 라이브러리가 뇌 조직으로 부터 시퀀스 되었고, 질병상태는 암을 의미한다.)^[12] 주목할만한 예외인 암과 함께, dbEST 항목에 질병 상태는 종종 기록되지 않는다. TissueInfo 프로젝트는 이러한 문제를 해결하기 위해 2000년에 시작되었다. 이 프로젝트는 (매일 업데이트 되는) 질병 상태 (암/암이 아닌)와 조직 출처를 명확하게 하는 큐레이팅된 데이터를 제공하며, 조직과 기관을 연결하는 조직 온톨로지를 제공하고 (예, 시상하부가 뇌의 일부이고 뇌가 중추신경의 일부라는 지식을 체계화함), 시퀀싱된 유전제부터 dbEST의 데이터로 계산된 조직 발현 프로파일까지 전사체 주석을 위한 오픈소스 소프트웨어를 배포한다.^[13]

3. 외부링크 - External links

ESTs Factsheet from NCBI, a good and easy to read introduction to ESTs.
The NCBI Handbook, Part 3, Chapter 21 has a very nice overview.
ECLAT a server for the classification of ESTs from mixed EST pools (from fungus infected plants) using codon usage.
The current number of EST sequences in the GenBank division dbEST.
Web Resources for EST data and analysis
[1] TissueInfo project: Curated EST tissue provenance, tissue ontology, open-source software.
http://www.estinformatics.org/ Web resource contains all publicly available ESTs which has been processed through various cleaning steps where contaminating DNA e.g. vector, E coli and short sequences (<100bp) removed.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Biological Science > 위키피디아 번역' 카테고리의 다른 글

[번역] Epigenetics - 후성유전 / 후생유전 (0)	2018.01.09
[번역] Sequence Assembly - 염기서열 조립, 유전체 조립 (0)	2018.01.09

Posted by Gun들지마

[번역] Sequence Assembly - 염기서열 조립, 유전체 조립

이 글은 위키피디아의 Sequence Assembly 항목을 번역한 것입니다. 영어 원문은 여기서 찾으실 수 있습니다.
주의) 생명정보학은 빠르게 발전하는 학문이며, 본 위키피디아 글은 예전에 작성되었기 때문에 현재 발전된 기술 및 소프트웨어들은 생략이 많이 되어있습니다.

생명정보학에서, 염기서열 조립 (sequence assembly)는 본래의 염기서열을 알아내기 위해 조각들을 정렬하고 합쳐서 더 기다란 DNA 서열로 만드는 것을 의미한다. 이것은 DNA 시퀀싱 기술이 한 번에 유전체 전체를 읽을 수가 없고, 사용하는 기술에 따라, 20에서 30,000 베이스 사이의 작은 조각들로만 읽을 수가 있기 때문이다. Reads라고 불리는 이 작은 조각들은 주로 유전체나 EST나 샷건 시퀀싱 (shotgun sequencing) 하는 것으로부터 생긴다.
유전체 조립 문제를 비유하자면, 같은 책 여러 권을 각각 다른 분쇄기에 파쇄한 다음, 그 조각들만 가지고 책의 내용을 파악하는 것과 같다. 이 작업의 당연한 어려움에 더불어서, 실제적으로도 몇 가지 추가적인 문제가 있다: 1) 원본은 내용이 똑같은 문단이 몇 번씩 반복된다. 2) 조각들 중에 조각내는 과정에서 생긴 오탈자가 있다. 3) 다른 책에서 생긴 조각이 들어갈 가능성도 있다. 그리고 4) 몇몇 조각들은 아예 알아볼 수가 없다.

목차 - Contents

1 유전체 조립 도구 (어셈블러) Genome assemblers
2 EST 조립 도구 EST assemblers
3 데노보와 맵핑 조립 De-novo vs. mapping assembly
4 기술 발전의 영향 Influence of technological changes
5 탐욕적 알고리즘 Greedy algorithm
6 유전체 조립 도구의 예 Notable assemblers
7 외부 링크 See also
8 참조 문헌 References

1. 유전체 조립 도구 (어셈블러) - Genome assemblers

최초의 시퀀스 어셈블러는 1980년대 후반과 1990년대 초반에 programs to piece together vast quantities of fragments generated by automated sequencing instruments called DNA 시퀀서 (DNA sequencers)로 불리는 자동 시퀀싱 기계가 출력해 낸 방대한 양의 조각들을 짜집기 위해 간단한 시퀀스 정렬 프로그램의 변형된 버전으로나오기 시작했다. 시퀀싱 하는 대상 생물이 크기와 복잡성에서 점차 증대 함에 따라, 이 유전체 프로젝트 (genome projects)에 필요한 어셈블러는 더욱 복잡한 방법이 필요하게 되었다. 컴퓨터 클러스터에서 수행할 테라바이트 급의 시퀀싱 데이터, 동일하거나 아주 비슷한 (반복 구간으로 불리는) 시퀀스들은, 최악의 경우에, 알고리즘의 시간과 리소스를 기하급수적으로 늘릴 수 있었고, 조각에 존재하는 시퀀싱 기계로 인한 에러들은, 어셈블리 자체를 혼란에 빠뜨릴 수 있었기 때문이다.
최초의 대형 진핵생물 유전체인 초파리 Drosophila melanogaster를 조립하는 데에 어려움을 맞이한 과학자들은 (2000년, 인간 유전체는 그 1년 후에 이뤄졌다) Celera Assembler^[1] 와 Arachne^[2] 같은 어셈블러를 개발하여서 1억에서 3억 베이스의 유전체를 다룰 수 있도록 하였다. 이 시도를 따라서, 몇몇의 다른 주요 유전체 시퀀싱 그룹들이 대규모의 어셈블러를 만들었고, AMOS^[3] 와 같은 오픈소스 프로젝트도 시작되어서 오픈소스 체제에서 유전체 조립 기술의 최신 방법들을 도입하는 시도도 있었다.

염기서열 어셈블러가 어떻게 겹치는 부분으로 조각들을 갖다 맞추는지 보여주는 예제. 그림은 염기서열에 반복되는 부분이 있어서 생기는 문제도 보여준다.

2. EST 조립도구 - EST assemblers

Expressed Sequence Tag 혹은 EST 어셈블리는 유전체 어셈블리와는 여러가지 면에서 다르다. EST 시퀀스들은 세포의 전사된 mRNA이며 전체 유전체의 오직 일부분 만을 나타낸다. 유전체와EST의 어셈블리는 그 알고리즘 자체에서 달라보인다. 예를 들어, 유전체는 종종 반복되는 시퀀스들이 특히 유전자와 유전자 사이 부분에 대량으로 있다. EST가 유전자의 전사체를 나타내기 때문에, EST는 그러한 부분이 없다. 반면에, 세포는 일정한 수의 유전자들을 아주 대량으로 전사하는 경향이 있다 (housekeeping genes). 그리고 이것은 어셈블 해야할 데이터에 비슷한 시퀀스들이 다수가 존재한 다는 것을 의미한다.
더군다나, 유전자는 때때로 유전체에서 겹치는 부분이 존재하기도 하지만 (sense-antisense transcription), 이상적으로는 이 부분들을 유전자 별로 따로 조립해야 한다. EST 어셈블리는 또한 alternative splicing, trans-splicing, single-nucleotide polymorphism, post-transcriptional modification와 같은 문제들 때문에 더 복잡해 지기도 한다.

3. 데노보와 맵핑 조립 - De-novo vs. mapping assembly

시퀀스 어셈블리는 두가지의 종류로 나눌 수 있다:
데노보 (de-novo): 짧은 조각들을 맞춰서 완전한 길이의 (때때로는 새로운) 시퀀스들을 만드는 것 (De novo sequence assemblers, de novo transcriptome assembly 참조)
맵핑 (mapping): 조각들을 이미 존재하는 뼈대 시퀀스에 맞춰서 그 뼈대 시퀀스와 동일하지는 않지만 비슷한 전체 시퀀스를 만드는 것.

복잡성과 시간으로 봤을 때, 데노보 어셈블리는 맵핑 어셈블리보다 몇배나 느리고 메모리도 더 요구한다. 이것은 대부분 어셈블리 알고리즘이 모든 조각들을 모든 다른 조각들에 비교한다는 사실때문이다 ( O(n²)의 시간이 걸리지만, 해쉬를 이용하면 시간을 많이 단축할 수 있다). 앞서 나온 파쇄된 책과 비교한다면, 맵핑 어셈블리는 아주 비슷한 책이 견본으로 있는 것과 다름없다 (아마 주인공 이름과 지역 이름 정도는 바꼈을테지만). 데노보 어셈블리는 이 책이 과학 교과서인지, 소설인지, 카탈로그인지, 아니면 심지어 몇권이 섞여있는 지도 모르는 상태이므로 더 본격적으로 어렵다. 또한, 모든 파쇄조각들을 다른 파쇄조각들에 일일이 비교해야 하기도 한다.

4. 기술발전의 영향 - Influence of technological changes

시퀀스 어셈블리의 복잡함은 두가지 요인으로부터 결정된다: 조각의 갯수와 그 길이이다. 더 많고 더 긴 조각들은 더 많은 부분이 겹쳐서 더 나은 조립을 할 수 있게 되지만, 그것은 동시에 계산 알고리즘이 조각의 길이와 수에 따라 제곱 혹은 지수승으로 복잡해질 수 있기 때문에 문제를 일으킨다. 그리고 짧은 시퀀스들은 정렬하기에 빠르지만, 짧으면 짧을 수록 반복된 구간이나 비슷한 구간이 반복될 경우에 어셈블리를 더 복잡하게 만들기도 한다.
DNA 시퀀싱의 아주 초반에는, 과학자들이 실험실에서 몇주간 일한다음에야 짧은 길이의 (주로 수십 베이스의) 시퀀스들을 단지 몇개만 얻을 수 있었다. 그러므로, 그 시퀀스들을 정렬하는 데에는 수작업으로 몇 분밖에 걸리지 않았었던 것이다.
1975년에, Sanger sequencing으로 불리는 Dideoxy termination 방법이 개발 되었고, 2000년 쯤 까지 이 기술은 발전하여 완전히 자동으로 동작하는 기계들이 하루 24시간 내내 병렬적으로 시퀀싱을 가동할 수 있게 되었다. 전세계의 대형 유전체 센터들은 이 시퀀싱 기계들을 수백 수천대 가동하고 있었다. 그리고 그것은 조각의 길이가 800에서 900 베이스 정도 되고 시퀀싱 기계와 클로닝 벡터 (cloning vectors)에서 비롯한 에러율이 0.5에서 10퍼센트 정도 되는 유전체 전체 샷건 시퀀싱 프로젝트 (shotgun sequencing projects)에 최적화된 어셈블러를 개발하도록 만들었다.
Sanger sequencing 기술로 인해, 2만개에서 20만개의 조각을 가진 박테리아 유전체는 컴퓨터 한대에서 쉽게 어셈블리 할 수 있었다. 3천5백만개의 조각이 있는 인간 유전체같은 좀 더 큰 프로젝트들은 분산 컴퓨팅을 이용하여 대형 컴퓨터 센터가 필요했다.
2004, 2005년에, 454 Life Sciences의 파이로시퀀싱(pyrosequencing)이 상업적으로 이용가능하게되었다. 이 새로운 시퀀싱 기술은 Sanger 시퀀싱보다는 훨씬 더 짧은 조각들을 만들었지만 (그당시에는 약 100 베이스, 지금은 400-500베이스) 고속대용량에 가격도 저렴했기 때문에 (Sanger에 비해) 유전체 센터들은 이 기술을 많이 차용했다. 그리고 그것은 이러한 대량의 시퀀스 조각들을 효율적으로 처리할 수 있는 시퀀서의 개발을 이끌었다. 대용량의 데이터는, 그 기술에 특화한 에러 패턴과 더불어 어셈블러의 발전을 늦추게 하는 요소였다. 2004년 초반에는 454가 개발한 Newbler 어셈블러만이 사용가능 했다. 2007년 중반에 Chevreux et al.이 개발한 MIRA 어셈블러의 혼합버전이 454 시퀀스 어셈블리와 454 시퀀스와 Sanger가 혼합된 시퀀스 어셈블리가 가능한 최초의 무료 소프트웨어였다. 서로 다른 기술로 나온 시퀀스들을 어셈블리 하기 위해 하이브리드 어셈블리 hybrid assembly의 개념도 탄생하게 되었다.
2006년 부터, 일루미나 Illumina (전 Solexa) 기술이 가능하여져서 하나의 시퀀싱 기계에서 한번 돌릴때마다 1억개의 조각이 나오게 되었다. 인간 유전체 프로젝트의 3천5백만 조각이 이전에는 수백대의 기계로 몇년이 걸렸다는 것과 비교해보라. 일루미나 시퀀싱은 처음에는 36베이스로 조각길이가 제한되어 있었다. 이것은 데노보 어셈블리는 (de novo transcriptome assembly와 같은) 거의 불가능한 길이엇다. 하지만 새로운 기술은 이 조각 길이를 100베이스 이상으로 끌어올렸고, 2007년 말에는 Dohm et al.이 개발한 the SHARCGS assembler 가 Solexa read를 사용한 어셈블리를 하는 어셈블러로 최초로 발표되었다.
후에, SOLiD, Ion Torrent and SMRT와 같은 새로운 기술이 발표되었고, Nanopore sequencing과 같은 기술도 부상하고 있다.

5. 탐욕적 알고리즘 - Greedy algorithm

염기 서열 조각이 여러개 주어졌을 때에, 알고리즘의 목적은 가장 짧은 supersequence를 찾는 것이다.
    1. 모든 조각을 1:1로 정렬해서 계산한다.
    2. 가장 많이 겹치는 두 개의 조각을 고른다.
    3. 선택한 조각을 겹쳐서 합친다.
    4. 2와 3을 조각이 단 하나 남을 때까지 반복한다.
결과는 문제에 궁극적인 정답이 항상 되지는 않는다.

6. 유전체 어셈블러의 예 - Notable assemblers

아래의 표는 데노보 어셈블리가 가능한 유전체 어셈블러 몇몇의 예이다.

Name	Type	Technologies	Author	Presented /Last updated	Licence*
DNASTAR Lasergene Genomics Suite	(large) genomes, exomes, transcriptomes, metagenomes, ESTs	Illumina, ABI SOLiD, Roche 454, Ion Torrent, Solexa, Sanger	DNASTAR	2007 / 2016	C
Newbler	genomes, ESTs	454, Sanger	454/Roche	2004/2012	C
Phrap	genomes	Sanger, 454, Solexa	Green, P.	1994 / 2008	C / NC-A
SPAdes	(small) genomes, single-cell	Illumina, Solexa, Sanger, 454, Ion Torrent, PacBio, Oxford Nanopore	Bankevich, A et al.	2012 / 2017	OS
Velvet	(small) genomes	Sanger, 454, Solexa, SOLiD	Zerbino, D. et al.	2007 / 2011	OS
*Licences: OS = Open Source; C = Commercial; C / NC-A = Commercial but free for non-commercial and academics

7. 외부 링크 - See also

De novo sequence assemblers
Sequence alignment
De novo transcriptome assembly
Set cover problem
List of sequenced animal genomes

8. 참조 - References

Myers, E. W.; Sutton, GG; Delcher, AL; Dew, IM; Fasulo, DP; Flanigan, MJ; Kravitz, SA; Mobarry, CM; et al. (March 2000). "A whole-genome assembly of Drosophila". Science. 287 (5461): 2196–204. Bibcode:2000Sci...287.2196M. PMID 10731133. doi:10.1126/science.287.5461.2196.

Batzoglou, S.; Jaffe, DB; Stanley, K; Butler, J; Gnerre, S; Mauceli, E; Berger, B; Mesirov, JP; Lander, ES (January 2002). "ARACHNE: a whole-genome shotgun assembler". Genome Research. 12 (1): 177–89. PMC 155255  PMID 11779843. doi:10.1101/gr.208902.

AMOS page with links to various papers

Copy in Google groups of the post announcing MIRA 2.9.8 hybrid version in the bionet.software Usenet group

Dohm, J. C.; Lottaz, C.; Borodina, T.; Himmelbauer, H. (November 2007). "SHARCGS, a fast and highly accurate short-read assembly algorithm for de novo genomic sequencing". Genome Research. 17 (11): 1697–706. PMC 2045152  PMID 17908823. doi:10.1101/gr.6435207.

list of software including mapping assemblers in the SeqAnswers discussion forum.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Biological Science > 위키피디아 번역' 카테고리의 다른 글

[번역] Epigenetics - 후성유전 / 후생유전 (0)	2018.01.09
[번역] Expressed Sequence Tag (0)	2018.01.09

Posted by Gun들지마

에볼라 바이러스의 전염성 - 생명정보학을 이용한 결론 도출

이 글은 2017년 2월 Bioinformatics 저널에 실린 "Changes associated with Ebola virus adaptation to novel species"를 요약 및 번역한 것입니다.

에볼라 바이러스 (Ebola virus)는 원래 쥐 등의 설치류에게 전염되지는 않지만 유전자 변형으로 감염되어 질병을 일으킬 수 있습니다. 불과 몇년 전에 아프리카에 있었던 대규모의 발병은 수많은 희생자를 낳았습니다.

현재까지, 에볼라 바이러스는 5개의 종류로 구분이 됩니다. 이 중 4개는 (Ebola virus, Sudan virus, Bundibugyo virus, Tai forest virus) 인간을 숙주로 삼지만, 나머지 하나 (Reston virus)는 사람을 제외한 유인원에게 감염이 됩니다.

이러한 숙주의 특정성때문에, 과학자들은 바이러스에 유전자 변형을 일으켜서 쥐 등의 설치류에게 감염시키는 연구를 해왔고, 몇몇의 연구는 성공적으로 감염시킬 수 있었습니다.

이 논문은 그러한 성공적인 사례들을 종합하고 분석하여서, 어떠한 인자가 바이러스에게 새로운 숙주를 감염시킬 수 있는 능력을 가지게 하는지 조사했습니다. 특히 기니피그에게 감염시킨 유전자 변형 바이러스 세 종류 (Cross et al., 2015; Dowall et al., 2014; Vochkov et al., 2000)와 쥐에게 감연시킨 한 종류 (Ebihara et al., 2006)의 바이러스를 분석하였습니다.

이들을 종합한 결과, 단백질의 성질을 변화시키는 33개의 특정한 돌연변이를 발견할 수 있었습니다.

(사진 출처: Table 1. Pappalardo et al., Bioinformatics 2017) 세로줄은 돌연변이가 발견된 단백질의 종류이고, 가로줄은 각각 독립된 연구논문입니다. 숫자는 발견된 돌연변이의 수입니다.

NP: nucleoprotein, GP: glycoprotein, VP: viral protein

NP와 GP, 그리고 VP24의 돌연변이가 모든 바이러스에서 발견됩니다. 그리고 일부의 케이스에서 공통된 돌연변이도 발견할 수 있습니다. (L, VP35)

여기서 NP (nucleoprotein)은 VP30, VP35, L 등과 함께 바이러스의 복제 매커니즘을 담당하고 있습니다. NP는 또한 바이러스가 숙주의 면역체계에 의해 발견되지 못하게 하는 역할도 합니다. GP (glycoprotein)은 숙주세포에 바이러스가 침입할 수 있도록 도와줍니다.

또한 VP24는 바이러스의 nucleocapsid를 형성하고, 바이러스의 복제를 돕고, 숙주의 면역전달을 막는 등의 역할을 합니다.

이러한 돌연변이들을 종합하여 본 결과, 바이러스가 유전자 변형을 일으켜서 새로운 숙주를 감염시키기 위해서는 아주 적은 수의 돌연변이로도 가능하다고 합니다. 특히, VP24에 일어난 돌연변이는 새로운 숙주 감염에 결정적인 역할을 함으로써, 단지 5개이하의 돌연변이 만으로도 전혀 다른 종의 생물을 감염시킬수 있게합니다.

결론적으로, 바이러스가 새로운 숙주를 감염시킬 수 있는 능력은 아주 쉽게 일어날 수 있으며 실제로 위에서 언급한 5가지 종류의 에볼라 바이러스에서 마지막인 Reston virus는 지금은 사람을 제외한 유인원만을 감염시킨다고 알려져있지만, 이 변종이 돼지에 감염되고 거기서 다시 사람에게 공기를 통하여 감염될 수도 있다는 연구가 나와있습니다.

만약 조금의 변형으로 이 바이러스가 인간과 밀접한 반려동물들, 즉 개나 고양이 혹은 가축들을 감염시킬 수 있게 된다면 그 여파는 걷잡을 수 없이 커질 것으로 보입니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Biological Science > 흥미로운 연구 모음' 카테고리의 다른 글

사이언스지에서 선정한 2018년 주목할 만한 과학 성과 (0)	2018.01.07
2018년에 기대되는 과학계의 성과 (0)	2018.01.06
새의 알은 왜 다르게 생긴걸까? 생명정보학적 결론 도출 (0)	2017.06.28
이해하기 쉬운 양자 컴퓨터의 원리 (펌) (0)	2017.06.17
유전체학을 이용한 지카바이러스의 유입경로 찾기 (0)	2017.06.15

Posted by Gun들지마

Gun들지마의 Bioinformatics 생명정보학

'생명정보학'에 해당되는 글 9건

생명정보학자가 되는 방법 (feat. R & K-BioX)

'Biological Science > Bioinformatics' 카테고리의 다른 글

내 노트북에서 무작정 따라해보는 RNA-Seq 분석 - Part 2

'Biological Science > Bioinformatics' 카테고리의 다른 글

[번역] Expressed Sequence Tag

'Biological Science > 위키피디아 번역' 카테고리의 다른 글

[번역] Sequence Assembly - 염기서열 조립, 유전체 조립

'Biological Science > 위키피디아 번역' 카테고리의 다른 글

에볼라 바이러스의 전염성 - 생명정보학을 이용한 결론 도출

'Biological Science > 흥미로운 연구 모음' 카테고리의 다른 글

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바

« » 2025.6
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30