Expressed sequence tag
이 글은
위키피디아의 Expressed Sequence Tag을 번역한
글입니다. 원문은 여기서
찾으실 수
있습니다.
유전학(genetics)에서, 발현
유전자
배열표(expressed
sequence tag, EST, 발현배열표식,
발현유전자단편
등으로 불리기도함)는
상보적 DNA(cDNA) 염기 서열의
짧은 부분
서열이다.[1] EST는
유전자의 전사체(transcripts)를 식별하기
위해 사용되기도
하고, 유전자의
발견과 유전자-염기서열의 결정에
지대한 역할을
한다.[2] EST의
식별은 빠르게
진행되어, 현재
공개 데이터베이스에
약 7천4백2십만개의
EST가 제공된다 (예: GenBank).
EST는 복제된 cDNA의 단발성
시퀀싱(sequencing)으로
발생한다. EST 생성에
사용되는 cDNA는
일반적으로 cDNA 라이브러리(cDNA library)의
개별 클론이다.
시퀀싱의 결과는
상대작으로 품질이
낮은 조각으로,
현재의 기술로는
대략 500에서
800개의 뉴클레오티드(nucleotides)로
제한된다. 이러한
클론이 mRNA에
상보적인 DNA로
구성되어있기 때문에,
EST는 발현된 유전자의
일부를 나타낸다.
이들은 cDNA/mRNA 시퀀스
혹은 주형가닥(template strand)인 mRNA의 역상보체(reverse
complement)로 데이터베이스에서 나타내어질
수도 있다.
EST는 방사 하이브리드
맵핑 (radiation hybrid
mapping), 해피 맵핑(Happy mapping), 또는 FISH와 같은
물리적인 맵핑 (physical mapping) 기술들을
통하여 특정
염색체의 위치에
맵핑할 수
있다. 대안으로는,
만약 EST가
유래한 개체의
유전체가 시퀀싱되어
있다면, EST 서열을
그 유전체에
컴퓨터를 사용하여
정렬시킬 수
있다.
인간 유전자
(human set of genes)에
대한 현재의
(2006년 현재) 이해에는
EST 증거만으로 보았을때에 수천개의
유전자가 존재한다.
이와 관련하여,
EST는 이러한 유전자의
예측된 전사체를
더 정확히
담는 도구가
되며, 이것은
그 유전자의
단백질과 궁극적으로
그 기능에
관한 예측으로
이끌 수
있다. 또한,
이 EST가
획득되어지는 상황
(조직, 기관,
암 등의
질병상태)는
해당 유전자가
활동하는 여부에
대한 정보를
제공한다. EST는
유전자 발현
(gene expression)을
결정하기위해 사용되는
DNA 마이크로어레이(DNA microarrays)에
대한 정밀한
탐색기의 설계를
서용하는 충분한
정보를 포함하고
있다.
일부 저자들은
"EST"라는 용어를 태그
이외에 더이상의
추가 정보가
거의 혹은
전혀 없는
유전자를 기술하기
위해 사용하기도
한다.[3]
Nagaraj et al. (2007)은 EST의 중요성과
특성, EST 데이터셋
분석 방법과
다양한 생물
분야에서의 그
적용을 정리
및 리뷰했다.[4]
목차 - Contents
1 역사 - History
2 데이터와 주석 출처 - Sources of data and annotations
2.1 dbEST
2.2 EST contigs
2.3 조직 정보 - Tissue
information
3 외부링크 - External links
1. 역사 - History
1979년에 하버드와 캘리포니아공대
팀은 DNA에서
mRNA를 만드는 기본
개념을 확장하여서
in vitro로 세균성 플라스미드로
그 라이브러리를
증폭하였다.[5]
1982년에, Greg Sutcliffe와 그
동료들은 시퀀싱을
위한 이러한
cDNA 라이브러리로부터
무작위 또는
반무작위 클론을
선택하는 아이디어를
내었다.[6]
1983년에, Putney et al.은 토끼
근육 cDNA 라이브러리로
부터 178개의
클론을 시퀀스했다.[7]
1991년에 아담스와 그
동료들은 EST라는
용어를 만들어서
보다 체계적인
시퀀싱 프로젝트를
(600개의뇌 cDNA로 시작하여)
시작했다.[2]
2. 데이터 및 주석의 출처 - Sources of data and annotations
2.1 dbEST
dbEST는 1992년에 설립된 Genbank의 한 부서이다. GenBank에서, dbEST의 데이터는 연구실들에 의해 직접 제출되고 큐레이팅 되지 않는다.
2.2 EST contigs
EST 컨티 그트를 만드는 것은 사소한 것이 아니며, 인공물 (두 개의 다른 유전자 산물을 포함하는 컨 티그)을 산출 할 수있다. 유기체의 완전한 게놈 서열이 이용 가능하고 전사 물에 주석이 달린 경우, 연속체를 우회하여 전사 물을 EST와 직접 매치시킬 수있다. 이 접근법은 TissueInfo 시스템에서 사용되며 (아래 참조) 게놈 데이터베이스의 주석을 EST 데이터에서 제공하는 조직 정보에 쉽게 연결할 수 있습니다.
EST가 시퀀싱 되는
방법 때문에,
많은 별개의
EST들은 종종 한
개체의 동일한
mRNA에 상응하는 시퀀스의
일부이다. 이후의
유전자 발견
분석을 위한
EST의 갯수를 줄이는
노력의 일환으로,
몇몇 그룹이
EST를 EST contigs로
조립했다. EST contig를
제공하는 이러한
자원의 예로는
TIGR gene indices,[8] Unigene,[9] and STACK [10] 등이
있다.
EST contig를 만드는 것은
쉬운 일이
아니며, (두개의
다른 유전자
전사체를 포함하는
contigs 등의) 오류를 산출할
수 있다.
한 개체의
완전한 유전체
시퀀스가 이용가능하고
그 전사체에
주석이 달린
경우에는, contig 어셈블리를
지나쳐서 직접적으로
EST와 전사체를 매치시킬
수 있다.
이러한 접근법은
TissueInfo system에서 사용되며 (아래
참조) 유전체
데이터베이스에서 주석과
EST 데이터로 제공된 조직
정보에 연결하는
것을 쉽게
만든다.
2.3 조직정보 - Tissue information[edit]
EST의 높은 처리량 분석은 종종 유사한 데이터 관리 문제를 겪습니다. 첫 번째 과제는 EST 라이브러리의 조직 출처가 dbEST에서 평이한 영어로 기술되어 있다는 것입니다. 이로 인해 동일한 조직에서 2 개의 EST 라이브러리가 시퀀싱되었음을 모호하지 않게 확인할 수있는 프로그램을 작성하기가 어렵습니다. 유사하게, 조직에 대한 질병 상태는 계산 상 친숙한 방식으로 주석이 달려 있지 않다. 예를 들어, 라이브러리의 암 기원은 종종 조직 명과 혼합된다 (예를 들어, 조직 명 "아교 모세포종"은 EST 라이브러리가 뇌 조직으로부터 서열되고 질병 상태가 암인 것을 나타낸다). [12] 주목할만한 암을 제외하고 질병 상태는 종종 dbEST 항목에 기록되지 않습니다. TissueInfo 프로젝트는 이러한 문제를 해결하기 위해 2000 년에 시작되었습니다. 이 프로젝트는 조직 기원과 질병 상태 (암 / 비암)를 명확히하기 위해 큐 레이션 된 데이터 (매일 업데이트 됨)를 제공하고, 시상 하부가 뇌의 일부인 지식을 공식화하는 조직과 기관을 연결하는 조직 온톨로지를 제공합니다 그 두뇌는 중추 신경계의 일부이다.) 시퀀싱 된 게놈의 transcript annotation과 dbEST의 데이터로 계산 된 조직 발현 프로파일을 연결하는 오픈 소스 소프트웨어를 배포한다.
EST의 고속대량 분석은
종종 유사한
데이터 관리
문제를 겪는다.
첫번째 문제는
EST 라이브러리의
출처가 dbEST에서
평이한 영어로
기술되어 있다는
것이다.[11] 이로
인해 두개의
EST 라이브러리가
동일한 조직에서
시퀀스 되었는
지의 여부를
모호하지 않게
결정할 수
있는 프로그램을
만들기가 어렵다.
마찬가지로, 조직에
대한 질병
상태는 전산
작업에 용이하게
주석이 달려있지는
않다. 예를
들어서, 한
라이브러리의 암
기원은 조직
명과 종종
섞인다. (예로
조직명인 "아교
모세포종, glioblastoma"는 EST 라이브러리가
뇌 조직으로
부터 시퀀스
되었고, 질병상태는
암을 의미한다.)[12] 주목할만한
예외인 암과
함께, dbEST 항목에
질병 상태는
종종 기록되지
않는다. TissueInfo 프로젝트는
이러한 문제를
해결하기 위해
2000년에 시작되었다. 이
프로젝트는 (매일
업데이트 되는)
질병 상태
(암/암이
아닌)와
조직 출처를
명확하게 하는
큐레이팅된 데이터를
제공하며, 조직과
기관을 연결하는
조직 온톨로지를
제공하고 (예,
시상하부가 뇌의
일부이고 뇌가
중추신경의 일부라는
지식을 체계화함),
시퀀싱된 유전제부터
dbEST의 데이터로 계산된
조직 발현
프로파일까지 전사체
주석을 위한
오픈소스 소프트웨어를
배포한다.[13]
3. 외부링크 - External links
ESTs Factsheet from NCBI, a good and easy to
read introduction to ESTs.
The NCBI Handbook, Part 3, Chapter 21 has a
very nice overview.
ECLAT a
server for the classification of ESTs from mixed EST pools (from fungus
infected plants) using codon usage.
The current number of EST sequences in the GenBank division dbEST.
Web Resources for EST data and analysis
[1] TissueInfo project: Curated EST tissue
provenance, tissue ontology, open-source software.
http://www.estinformatics.org/ Web
resource contains all publicly available ESTs which has been processed through
various cleaning steps where contaminating DNA e.g. vector, E coli and short
sequences (<100bp) removed.
'Biological Science > 위키피디아 번역' 카테고리의 다른 글
[번역] Epigenetics - 후성유전 / 후생유전 (0) | 2018.01.09 |
---|---|
[번역] Sequence Assembly - 염기서열 조립, 유전체 조립 (0) | 2018.01.09 |