반응형

이 글은 원문 "Top N Reasons To Do A Ph.D. or Post-Doc in Bioinformatics/Computational Biology" 을 김기태님께서 번역하신 글입니다.


아주 유용한 글이라고 생각해서 퍼왔습니다.


박사 학위 또는 포닥을 Bioinformatics/Computational Biology로 해야하는 탑 N 가지 이유

번역 김기태
원본: http://caseybergman.wordpress.com/2012/07/31/top-n-reasons-to-do-a-ph-d-or-post-doc-in-bioinformaticscomputational-biology/

 
0. 컴퓨팅은 21세기 생물학의 가장 중요한 기술입니다.
시간이 점차 흐를 수록, 생물학은 점점 더 양적인 과학이 되어가고 있습니다. 지난 3세기 간 생물학은 관찰의 과학에서 실험의 과학으로, 그리고 데이터 과학으로 변화되었습니다. 가장 밑에 있는 과일들이 먼저 따이듣이, 관찰과 실험으로 발견 할 수 있는 과일들은 벌써 따였고, 그로인해 새로운 발견을 하기가 점점 어려워지고 있습니다. 향후 새로운 발견에는 큰 데이터세트와 고급 분석 방법을 사용하는 것이 필요로 합니다. 하지만 빅 데이터와 복잡한 모델은 computational skill을 필요로 합니다. 앞으로 이러한 현실을 피할 수 있는 방법은 없습니다.

분자생물학의 선구자이자 노벨상 수상자인 Walter Gilbert는 생물학의 앞으로 20년의 미래에 대해 이러한 말을 했습니다. 

"To use this flood of [sequence] knowledge, which will pour across the computer networks of the world, biologists not only must become computer literate, but also change their approach to the problem of understanding life."

또 다른 분자생물학의 선구자이자 노벨상 수상자인 Sydney Brenner는 몇년 동안 이 이슈에 대해서 이렇게 주장하였습니다.

"I spent many hours persuading people that computing was not only going to be the essential tool for biological research but would also provide models for analyzing complexity…The development of sequencing techniques and their widespread application has generated enormous databases of information, and the need for computers is no longer questioned"

1. Computational skill은 더 다양한 곳에 적용할 수 있습니다.
현실을 직시해 봅시다. 생물학이란 분야에서 모든 Ph.D.와 포닥이 아카데믹 리서치 쪽의 커리어를 갖지 못합니다. 최근 워싱턴 포스트의 리포트에 의하면 생명과학 또는 생물학 분야의 박사 오직 14%만 5년 이내에 정말로 누구나 탐내는 아카데믹 위치에 간다고 합니다. 그러므로 만약에 당신의 박사 또는 포닥 과정때 받은 모든 트레이닝이 아카데믹 분야 밖에서 쓰여지게 된다면, 가장 넓게 적용 될 수 있는 스킬을 획득하는게 어떨까요? 실험 스킬들은 거의 생물학 또는 의학 분야에서의 연구실에서만 사용될 수 있습니다. 반면에 Computational skill은 이 분야를 넘어서, (생물)과학 외 더 넓은 시장에서 사용될 수 있습니다. 당신의 컴퓨터 기술을 늘리는 것은 단지 직업만 찾을 기회를 주는 것이 아닙니다. 컴퓨터가 어떻게 작동하는지에 대한 깊은 생각과 매일 상호작용하여 숙달된다면 컴퓨터는 당신의 삶에 또 다른 혜택을 줄 것 입니다.

2. 컴퓨팅은 당신의 핵심 과학적 능력을 발전시키는데 도움이 됩니다.
생물학은 본질적으로 혼란스러운 학문입니다. 일부 생물학자들이 좋은 실험 설계 및 통계 분석을 통해 이 어지러움을 극복하는 방법을 훈련하지만, 대부분의 생물학자들은 데이터 수집 및 분석에 대해서는 나쁜 습관을 가지고 있다고 합니다. 컴퓨팅은 사람이 임시방편적인 방법으로 할 수 있는 과학을 직면하게 해줄 수 있고, 그러므로 중요한 과학적인 능력들을 터득할 수 있게 해줍니다. 이런 능력에는 논리적인 실험 설계, 지속적인 데이터 수집, 재생 가능한 방법의 개발, 적절한 통계 방법을 사용하여 데이터를 분석하는 것이 있습니다. 그래도 당신이 벤치 또는 필드를 떠나야 하는 것에 대해 확신이 안선다면, 컴퓨터를 교육을 받아서 실험 능력을 향상시키는 과학적인 모범 사례를 개발합니다.!

3. Ph.D.와 포닥과정을 사용하여 새로운 능력을 계발해야 합니다.
대부분의 생물학자들은 고등학교 및 학부생 때 배운 실험 기술들을 가지고 박사과정에 진학합니다. 아마도 이런 기술들은 가장 첨단적인 것이 아닐 수 있고, 당신이 실험 기술을 연마하기 위해 첨단 연구를 수행하고 있지도 않을 것 입니다. 그럼에도 불구하고 당신은 박사과정에 들어오기까지 많은 훈련들을 받아왔습니다. 반면에 과학적인 컴퓨팅 기술은 엑셀을 사용하는 방법과 GUI 바탕의 통계 패키지 사용법만 배웠을 것 입니다. 그러므로 당신의 박사 및 포닥 과정을 여태까지 가지고 있던 기술들을 발전시키는 것 뿐만 아니라, 새로운 것을 배우는데 써야합니다.
저자의 생각은 Computational biology를 연마하는데 가장 최적의 시간은 박사과정이고, 마지막 기회는 포닥이라고 합니다. 그 이유는 박사과정 동안은 시간이 있고, 안정적인 재원을 지원받고, 사무구조가 당신을 보호해 주고 있기 때문입니다. Computational skill을 훈련하는데 포닥도 좋은 선택입니다. 하지만 짧은 계약기간, PI에 대한 큰 의존성, 논문 출판에 대한 높은 기대는 당신이 박사과정 때 처럼 시간이 많다는 것을 의미하지 않습니다. 그래서 저자는 좋은 PI를 찾아가라고 말합니다.

4. 당신은 생물학에 대한 더 특별한 능력을 계발 할 수 있습니다.
위에서 말씀 드렸다 시피, 대부분의 생물학자들은 실험적인 훈련들은 받았지만, 진보된 컴퓨터 훈련을 받은 사람은 아직 소수 입니다. 이것이 (고맙게도!) 변하는 동안, 당신이 코드를 짤 수 있다면 적어도 10년 동안은 post-genomic 시대의 생물학에서 경쟁적으로 우위를 차지할 수 있습니다. 그리고 당신이 다른 사람들이 낼 수 없는 결과를 낼 수 있고, 더하여 무리 중에서 당신을 돋보이게 할 수 있는 능력을 가지고 있음으로, 고용시장에서 당신은 더욱 더 경쟁력을 가질 수 있습니다.

5. 당신은 더 많은 수의 논문을 출판 할 것 입니다.
항상 그렇다고 느끼는 것은 아니지만, 박사과정과 포닥은 진짜 빨리 지나갑니다. 그러므로 당신은 시실패하는 실험으로 꾸물거릴 수 있는 시간이 별로 없습니다. 그러나 오해하지 마십시요, Computational biology도 실패한 실험 만큼 혹은 보다 더 실패를 안겨다 줍니다. 하지만 결정적으로 실패는 weeks/month 단위가 아닌 hours/day 단위로 생깁니다. 그러므로 당신에게 다른 일에 더 빨리 착수 할 수 있도록 해줍니다. 결과적으로 Computational biology로 인해 당신이 시간적으로 더 많은 논문을 출판 할 수 있다는 것 입니다. 당신은 아마도 실험 논문이 더 어렵기 때문에 그 만큼 가치가 더 있을 것이라고 생각 할 수 있지만, 출판은 아직 과학계에서 주화로 남아 있습니다.
게다가 교수임용위원회의 속담같이 내려오는 말 "읽지는 못하더라도 셀 수는 있다"는 아직도 유효합니다. 더 심각하게 말하자면, 고용주 또는 펀딩 에이젼시가 연구원에게 바라는 것은 좋은 아이디어가 있는지와 그 아이디어를 성취할 수 있는지 입니다. 논문의 출판은 당신이 프로젝트를 끝낼 수 있다는 중요한 증거입니다. 그러므로 Computational biology는 당신이 다른 사람 보다 좀 더 빨리 과학계에서 성공 할 수 있게 해줄 수 있습니다.

6. 당신은 당신의 연구에 좀 더 융통성을 가질 수 있습니다.
저자가 말하는 Computational biologist의 가장 좋은 점은 실험 생물학을 할 때 보다 좀 더 자유롭다는 것 입니다. 당신은 컴퓨터 분석으로 가능한 모든 일을 할 수 있습니다. 이런 일은 범위가 Computational Neuroscience에서 부터 Theoretical Ecology 그리고 그 사이에 있는 모든 것 까지 엄청나게 광범위 합니다. 그리고 당신이 특정 실험 테크닉과 잘 연계 한다면 이 토픽에서 저 토픽으로 좀 더 자유롭게 넘어다닐 수 있습니다. 이러한 범위의 융통성은 당신의 지적인 호기심을 충족 시켜 주거나 최신 유행을 따라갈 수 있게 해줍니다. 초보 연구자에게 있어 가장 중요한 점은 Computational biology를 통해 얻는 융통성이 커리어 초기에서 부터 자신의 연구 프로그램을 계발하고, 이것으로 PI에게 다가갈 수 있다는 것 입니다. 이것은 당신이 커리어 초기에서 부터 독자적인 프로젝트를 맡아서 한 경험을 늘려주기 때문에, 나중에 당신이 성공할 확률을 더 욱더 높혀 주기에 아주 중요합니다.

7. 일에 방법에 있어서 좀 더 자유로울 수 있습니다.
일과 삶의 균형에서 Computational biology는 많은 이점들이 있습니다. 그러나 꽤 높은 생산성을 계속해서 유지해야 합니다. 실험실에 묶여있는 것과는 다르게, Computational biology는 거의 아무대서나 할 수 있을 뿐더러, 재택근무도 가능 합니다. 장시간 동안 이런 일에 대한 융통성은 당신의 커리어를 잘 수용할 수 있도록 도와줄 것이고, 삶의 어려운 시기를 헤쳐나갈 수 있게 해줄 뿐 만 아니라, 가족을 만드는 것 같이 인생의 큰 결정을 쉽게 할 수 있도록 해 줄 것 입니다. 시약을 뒤지거나 세포를 걷으러 실험실로 달려가는 것을 당신의 삶에 융합시키는 것 보다 코딩과 프로그램 돌리는 것을 당신의 삶에 융합하는 것이 훨씬 더 쉬울 것 입니다. 저자가 여기서 분명히 말하고자 합니다: 만약에 당신이 아카데믹한 생물학 분야의 커리어와 가족을 동시에 갖고 싶다면, 당신이 실험실에 갖혀 있는 것 보다 Computational biology를 박사과정 또는 포닥 때 하는 것이 위에 목표를 이루는데 훨씬 도움이 될 것입니다. 이것은 여성에게도 적용 됩니다. 밑에 글을 보십시요. 

8. Computational research는 비용효과가 큽니다. 
현재 공개적으로 사용할 수 있는 데이터가 너무 많기 때문에 Computational biology연구는 큰 예산 소모를 요구하는 실험보다 비용이 더 적게 듭니다. 이것은 몇 가지 이유 때문에 중요 합니다. 첫 번째로 Computational biology는 펀딩에 좀 덜 의존적 입니다. 그러므로 펀드를 따오기 위해서 지나친 시간을 낭비하지 않아도 됩니다. 당신은 그냥 하고 싶은 과학을 하면 되는 것 입니다. 이것은 지금 같이 현대의 경제 시대에 매우 중요합니다. 위에서 말했다 시피, Computational biology의 적은 비용은 자신의 연구를 이른 커리어에서 디자인 할 수 있도록 해줍니다. 비용효과는 당신이 새로운 연구실을 꾸렸을 때와 지속적으로 같은 생산성을 유지하는데도 중요합니다. 마지막으로 Computational biology의 비용효과는 과학 경제 도상 국가의 연구자와 부유국의 연구자를 동등한 입장에 서게 해줍니다. 저자가 멋대로 판단을 내린 것에 사과를 하지만 제한된 예산을 가지고 있는 개발도상국가의 연구자들은 세계적으로 톱 클래스가 되기 위해서 Computational biology를 선택하는 것을 숙고해야 한다고 합니다.

*[저의 생각으로, 만약에 간단한 분석을 한다면 wet lab 시약 및 장비 비용에 비해 dry lab이 돈이 좀 더 적게 들겠지만, 좋은 연구를 위해서 서버를 구축을 하기 시작한다면 dry lab도 만만치 않은 비용이 들어간다고 생각합니다. 많은 사람들이 "컴퓨터 한대만 있으면 쉽게 할 수 있는거 아니야?" 라고 생각하겠지만 제가 프로그램을 돌려본 결과 더 큰 메모리와 더 좋은 연산장치가 필요합니다.] 

9. 성공한 과학자는 마지막에 오피스로 귀결 됩니다.
만약에 당신이 성공하고 그렇게 갈망하던 PI 위치에 오른다면, 당신은 마침내 오피스 안에서 생활하게 됩니다. 몇몇의 용감한 영혼들은 실험실로 찾아가 실험을 할 것 이지만, 이것은 매우 드문 상황입니다. 사실 성공한 아카데믹 연구자의 토착 서식지는 사무실의 컴퓨터 앞에 의자 입니다. 당신이 물론 오피스안에서 wet lab과 필드 일을 할 수 는 없지만, 책상에 앉아 Computational biology 연구는 할 수 있습니다. 가장 많이 인용이된 bioinformatian인 Webb Miller가 말했듣이 자신의 연구를 계속하는 것은 당신의 긴 커리어의 여행에서 당신이 하는 일에 계속 동기 부여를 할 수 있는 가장 좋은 방법 중 하나입니다. 기억하십시요, 당신의 장기 목표는 "Principal Investigator(연구 책임자)"가 되는 것이지 "In Principle Investigator(원칙적 연구자)"가 되는 것이 아닙니다. 그러므로 당신이 아직 젊고 연구에 뜻이 있다면 한번 질문 해 보십시요: 당신 연구실의 다른 누군가가 모든 발견을 하는데 재미를 보는 동안 당신은 왜 대부분의 커리어에서 쓰지 않을 기술을 훈련 받으시나요?

10. [당신은 왜 이 리스트가 숫자 0에서 부터 시작하는 지 알아야 합니다.]
저자가 이 글을 쓴 이유는 Computational biology를 하면서 얻는 유익함에 대하여 토론을 하고자 였습니다. 저자가 이 리스트를 Top 10 리스트로 만들지 않고 Top N 리스트로 만든 이유는 또 다른 좋은 의견을 계속해서 추가 하기 위함입니다.



원문 출처: https://caseybergman.wordpress.com/2012/07/31/top-n-reasons-to-do-a-ph-d-or-post-doc-in-bioinformaticscomputational-biology/

번역본 출처: Korean Bioinformatics Facebook Group

728x90
반응형
Posted by Gun들지마
반응형

유전자 발현의 상대적인 양을 알아보는 RNA-Seq은 현재 널리 이루어지고 있는 실험 방법입니다.

많은 연구가 이 RNA-Seq을 통해서 이뤄지고 있고, 또 흥미로운 발견들도 계속 되고 있습니다.


하지만, 생물을 공부하는 학생의 입장으로는 이러한 개념이 낯설기만 합니다.

특히, 실험을 마치고 나온 데이터를 분석하기 위해서는 여러 툴들을 사용하게 되는데, 지금은 워낙 많은 방법으로 워낙 많은 툴들이 나와있어서, 자신의 실험에 맞는 툴이 어떤 것인지 애매할 때가 있습니다.


이 고민의 중요한 과정인 Read count와 FPKM에 대해 오늘은 알아보려고 합니다.


RNA-Seq 데이터를 받아들고 분석하기위해서, 유전자 발현의 양을 측정하는 기본적인 방법에는, 크게 두가지가 있습니다.


1. read count는 말그대로 하나의 유전자의 위치에 assemble된 read들의 숫자를 센 값입니다.

2. FPKM은 Fragments Per Kilobase of exon per Million의 약자인데, 단순히 숫자를 세는 read count와는 다르게, paired-end read 두개가 합쳐져서 하나의 fragment를 이루고, 그 숫자를 exon의 총 길이에 나눠서 유전자의 길이에 따른 normalization을 한 값입니다. 그리고 그것을 다시 million reads 로 나눠서 library size에 normalization을 한 값이죠. 그래서 이 방법으로는 다른 library size의 샘플을 비교할 수 있게됩니다. 예를 들어서 60 million reads 가 나온 샘플 A와 30 million reads가 나온 샘플 B의 같은 유전자 C가 어느 샘플에서 더 많이 발현되었는지 비교를 가능하게 해주는 것이 FPKM입니다.


그러면 사람들은 왜 FPKM을 항상 쓰지 않고, read count를 쓰기도 하는걸까요?


거기에 대한 의문과 비교는 이 블로그 포스트에 잘 정리되어 있습니다.

링크의 저자는 자신이 가지고 있는 데이터로 FPKM과 read counts를 비교를 했습니다.

위 그래프에서도 보시다시피, 같은 데이터를 가지고 계산하더라도 FPKM과 Read Count는 많은 차이가 납니다.


당연히, 어떤 방법을 택하느냐에 따라서 실험의 분석결과도 많은 차이가 나겠죠?

이러한 현상은 여러 과학자들에 의해 활발하게 토론되어 왔고, 또 두 방법을 비교하는 논문도 여러차례 나오고 있습니다.

(Rapaport et al., 2012; Seyednasrollah et al., 2015 등)


위 그래프를 가져온 블로그의 주인도 비슷한 이야기를 합니다. FPKM과 read-count는 결국 두개의 다른값이고, 어느 것이 더 정확하고 덜 정확하다는 결론을 내리기는 힘들다고 합니다.

자신의 실험의 목적이 무엇이냐에 따라서 달리 쓰여야한다고 합니다. 그래서 항상 두가지 방법을 다 써보는 것도 추천을 하고있습니다.


그러면 어떤 경우에 FPKM을 쓰고 어떤 경우에 read-count를 써야할까요?

여기서 절대적인 결론을 내릴 수는 없지만, 여러 토론과 글들을 읽어본 결과, within sample comparison에는 FPKM을, across sample comparison에는 read-count를 쓰는 것이 좋다고 대체로 이야기하고 있더군요.

물론 이 말에 전부 동의하시지는 않겠지만, 왜 그런지 한번 알아보도록 하겠습니다.


그 이유는 normalization을 하는 방법의 차이입니다. 

FPKM은 normalization을 샘플에 따라 각각 합니다. 즉, 하나의 샘플의 데이터 안에서, 유전자의 길이와 전체 library 의 양에 따라 normalization을 합니다.

반면에 read count는 그런 normalization의 과정없이, 서로 다른 샘플들을 하나로 묶어서 normalization을 나중에 합니다. 그러므로 normalization 이 각각의 샘플에서 따로 된 경우 보다는  read count의 normalization이 샘플 간의 비교에서는 더 나아보일 수도 있지요.

즉, 하나의 샘플에서 어떠한 유전자가 더 혹은 덜 발현 되었나 비교를 하는 경우에는 FPKM을, 다른 샘플간에 어떤 유전자가 다르게 발현되었냐를 볼때에는 read count를 추천하더군요.


하지만, 이것은 어디까지나, 각 샘플의 library양이 비슷하거나 동일할 때의 경우입니다.

만약 library의 read 양이 샘플간에 엄청 차이가 난다면, FPKM이 나을 경우도 있다고합니다.


결국, 자신의 실험 디자인에 따라, 어떤 것을 택하는 지는 자기에게 달려있습니다. 아, 이렇게 애매모호한 결론 싫어하지만 어쩔 수가 없군요.


FPKM 방법을 쓰는 대표적인 분석 툴은 Tuxedo pipeline (tophat2-cufflinks-cuffdiff/hisat2-stringtie-bowtie) 가 있구요. read count를 쓰는 대표적인 분석 툴은 EdgeR 혹은 DESeq2가 있습니다.




728x90
반응형
Posted by Gun들지마
반응형

Wright-Fisher Model

 

Wright-Fisher Model은 genetic drift의 한 모델이자 population genetic model의 가장 간단한 수학적 모델입니다.

 

이렇게 간단한 수학적 모델을 끌어내기 위해서 여러가지 전제조건을 달고 있는데요, 이 전제 조건들은 Hardy-Weinberg Equilibrium에 쓰여진 여러 전제조건들과 비슷합니다.

 

1. 겹치지 않는 세대: (non-overlapping generations) 1년 살다가 이전 세대가 씨앗을 남기고 겨울에 다 죽는 1년생 식물 처럼 이전 세대와 그다음 세대의 인구가 겹치지 않습니다

2. 무작위적인 짝짓기: (random mating) 같은 gene의 경우에 모든 세대의 계승이 무작위로 이루어 집니다.

3. 유한하고 일정한 인구: (finite and constant population) 여기서 Hardy-Weinberg Equilibrium 과 다른 점인데요. 인구의 수가 세대마다 일정하며 유한합니다.

 

아주 간단하게 프로세스를 정리해보겠습니다. haploid 인 10개의 개체가 하나의 인구를 이루고 있다고 가정해 봅시다. 그러면 세대(generation)마다 인구수가 동일하기 때문에 다음 세대에서도 10개의 개체가 생깁니다. 이 다음 세대의 10개의 개체는 각각 하나의 parent를 랜덤하게 가집니다. 여기서 parent-offspring 관계는 선으로 나타낼 수가 있겠죠. 그리고 offspring 은 parent 와 같은 유전정보를 가집니다. 이것을 간단하게 도식으로 나타내어 보면 다음과 같습니다.

 

 

 

 그리고 10세대가 지나면 다음과 같은 도표가 나오겠죠.

 

 

 

Neutral evolution 에서는 모든 개체들이 동일한 fitness를 가집니다. 그리고 neutral Wright-Fisher Model에서는 이 동일한 fitness가 parent로 선택될 동일한 확률을 가집니다. 그러므로, 위의 예를 보았을 때에 하나의 개체는 그 다음 세대에서 parent로 선택될 10번의 기회를 가지게 되고, 이것을 확률로 바꾸면 0.1이 되겠죠.

보통의 경우에 diploid가 많으므로 2N=10 으로 표현을 합니다. (확률로 하면 p= 1/2N, n = 2N)

 

좀더 어렵게 수학적으로 말해보자면, 다음 세대의 각각의 개체는 binomial distribution (이항분포)를 따르고 p= 1/ 2N, n = 2N 이 됩니다. 위의 예에서는 인구수를 10으로 간단하게 나타내었지만, 인구수가 늘어나면 날 수록 n은 증가하고 확률인 p는 감소하겠죠. 그렇다면 이 이항분포는 Poisson distribution으로 나타내어 집니다.

 

여기서 mutation의 개념을 도입해 보겠습니다.

일단 간단하게 정리하기 위해서 지금 저희가 생각하는 mutation은 neutral mutation 즉, mutation이 개체의 fitness에 어떠한 영향도 주지 않는 것을 말합니다.

 

하나의 제한된 인구에서 세대를 거쳐감에 따라 mutation이 일어난다고 가정해 봅시다. 이때 mutation은 새로운 allele을 인구에 소개할 수도 있지만, 다음 세대에서 그 allele이 없어질 가능성도 있습니다. 사실 mutation으로 일어나는 새로운 allele은 활률상으로 없어질 가능성이 많겠죠.

 

예를 들어 보겠습니다. Diploid organism을 설명할 때에 개체수가 N이면, gene의 수는 2N이 됩니다. 또한, 하나의 세대는 t = 1, 2, ....로 나타낼 수 있고, X(t)는 한 allele A가 그 세대에서 일어나는 수를 나타낸다고 합시다. 그러면 이때 X(t)는 1에서 2N까지 나올 수가 있습니다. 그리고 p_i,j는 X(t) = I 일때 X(t+1) = j 일 확률이라고 해봅시다.

 

t+1 세대에서 하나의 유전자는 그전 세대 t 에서 샘플링될 수가 있고, 이 p_i,j 는 이항분포를 다음과 같이 따릅니다.

 

 

복잡해 보이나요? 기본적인 이항분포에서 p = I/2N 이라고 생각해보세요 ㅎㅎ

 

 

 

 

 

 

 

 

728x90
반응형
Posted by Gun들지마
반응형

 

Bioinformatics에 관련된 아주 좋은 슬라이드가 있어서 작성자님의 허락을 맡고 퍼왔습니다.

 

출처: http://ann890815.tistory.com/49

 

728x90
반응형
Posted by Gun들지마
반응형

역시 Bioinformatics하면 Phylogenetic Tree를 만드는 과정을 빼놓을 수가 없겠죠?

 

그래서 여기서는 Phylogenetic Tree의 기본적인 개념과 좀더 들어간 개념들을 다룰 예정입니다.

 

1. Terminology

Phylogenetic Tree에서 기본적으로 다뤄지는 단어들은 node, branch, leaves, root 등이 있습니다.

일단 Phylogenetic Tree가 뭔가는 다들 아실테지요. Phylogenetic tree는 종과 종(species) 유전자와 유전자의 genealogical 관계를 도표로 나타낸 것 입니다.

node라 함은, tree에서 하나의 개체 혹은 유전자를 나타내고, 그 유전자와 유전자를 이어주는 선이 branch입니다. tree 관계상 가장 하위에 위치한 node를 leaf 라 하구요. 한 tree에서 가장 위로 거슬러올라간 ancestor를 root이라고 합니다.

 

2. Rooting the tree.

Tree는 크게보아서 root(뿌리)가 있는 것과 없는 것으로 나눠지는데요.

만약에 진화의 속도가 시간에 비례해서 일정하다면, distance-matrix와 maximum likelihood로써 그 tree의 root을 결정할 수가 있지만, 보통은 일정하지가 않죠. 그래서 가장 자주 이용되는 방법이 outgroup을 이용하는 방법입니다.

비교를 하고 싶은 개체들을 쫙 세워놓고선, 걔들이랑 좀 관련이 덜됐다 싶은애를 넣어서, 아 얘가 root이다라고 선언하고 tree를 만드는 방법입니다.

예를 들어서 인간, 침팬지, 원숭이, 오랑우탄 들의 관계를 알고싶어서 tree를 만든다고 하면, outgroup으로 개를 집어 넣는거죠. 그렇다면, 개가 있는 branch가 root이 되는건 당연하겠죠?

하지만 이방법은 모든 종의 관계를 나열한 universal tree of life에는 적용되지않는답니다. 모든 생물이 들어가있는데 돌멩이 이런걸 넣을순 없잖아요?

 

3. Bifurcating vs. multifurcating trees

Bifurcating tree라 함은 말그대로, tree가 branch들로 나뉠때 한곳에서 2개이하로 나뉘는 것입니다. multifurcating은 3개이상 나뉘는 tree가 되겠죠. 프로그램을 짤때 특히 tree를 이용한 프로그램을 짤 때 이 bifurcating인지 아닌지가 중요하게 여겨질때가 많습니다. 예를 들어서 bifurcating tree만 받는 프로그램에 multifurcating tree를 입력한다면 에러가 나겠죠. 저도 얼마전에 그런경험이 있네요. 그런 경우에는 간단하게 계산기의 연산자입력하는 프로그램을 조금 고쳐서 multifurcating을 bifurcating으로 만들어 주면 된답니다.

 

4. topological distance between trees

두개의 tree가 있을때 이 두개의 tree가 얼마나 다른지 혹은 가까운지 측정하고 싶을때가 있습니다. 예를 들어서 어떤 새로운 알고리즘을 테스트 한다든지, 아니면 두개의 다른 유전자들을 가지고 나온 두개의 다른 tree를 비교하는거죠.

널리 쓰이는 방법은 partition distance라고 Robinson and Foulds(1981)에 나온 방법이 있는데요. 이 방법으로 금방 계산이 가능하긴 하지만, 단점 또한 세가지 있습니다. 첫째로, 이 방법으로 특정한 비슷한 관계는 알아내지 못하는 점이랑, 두번째로, 이 방법은 branch length를 무시한다는 점, 그리고 마지막으로 multifurcating tree에서는 심각한 오류가 날 수 있다는 점입니다.

 

5. Consensus trees.

partition distance가 두개의 tree가 얼마나 다른 지를 나타낸다면, consensus tree는 여러개의 tree에서 공통점을 뽑아서 대표하는 tree입니다. 여러가지 방법이 있지만 두개만 소개하도록 하겠습니다.

 

Strict consensus tree: 이 tree는 모든 tree에서 공통적으로 나타나는 node만 나타내는 tree입니다.

Majority-rule consensus tree: 이 것은 tree들 중에서 적어도 반 이상에 존재하는 node들만 나타낸 tree입니다.

 

 

728x90
반응형
Posted by Gun들지마