반응형

사진출처: Science Magazine


타원형의 구체인 새의 알은 비슷비슷하게 생겼다 할지라도, 자세히 들여다보면 다 다르게 생겼습니다. 날씬하고 길쭉한 알도, 통통한 물방울 같이 생긴 알도, 그리고 동그란 탁구공 같이 생긴 알도 있지요.


이 알들의 생김새는 그 새의 종류에 따라 나뉘는데, 최신 Science Magazine의 기사에 따르면 새의 알들이 다 다르게 생긴 데에는 특별한 이유가 있다고 합니다.


프린스턴 대학교의 과학자인, Mary Stoddard는 항상 이것에 대한 의문을 품고 있었다고 합니다. 다행히도, 최근데 버클리의 한 박물관에서 1400 종의 새알을 디지털화 하였고, Mary Stoddard는 이 알들의 크기와, 지름, 모양을 측정하는 Eggxtractor 라는 프로그램을 만들어서 이 모양들에 대한 규칙성이 있는지를 조사하였습니다.


그 결과, 새알의 특정한 모양과 새의 비행능력에 밀접한 연관이 있다는 것을 발견하였습니다. 


예를 들어, 도요새나 바다오리 같은 비행능력이 뛰어난 새들은, 알의 모양이 좀더 비대칭이고 늘씬하다고 합니다. 반면에 하늘에 오랫동안 날지 않는 새들은 더 동그란 알을 낳고요.


그 이유는 더 오래 더 잘 나는 새들은 좀더 몸집이 작고 가벼워서 골반의 크기도 작기때문에 알의 모양이 길쭉할 수 밖에 없다고 결론을 내렸습니다. 어찌보면 당연한 이야기일지도 모르지만, 방대한 양의 디지털 데이터를 종합 및 분석하여서 의미있는 결론을 도출해 내는 생명정보학이 잘 이용된 결과라고 생각합니다.


이 글은 Science Magazine의 기사 원글을 편집 및 요약한 글입니다.



이 링크에서 아래와 같은 데이터 시각화의 예제를 감상하실 수 있습니다.









728x90
반응형
Posted by Gun들지마
반응형

이 글은 원문 "Top N Reasons To Do A Ph.D. or Post-Doc in Bioinformatics/Computational Biology" 을 김기태님께서 번역하신 글입니다.


아주 유용한 글이라고 생각해서 퍼왔습니다.


박사 학위 또는 포닥을 Bioinformatics/Computational Biology로 해야하는 탑 N 가지 이유

번역 김기태
원본: http://caseybergman.wordpress.com/2012/07/31/top-n-reasons-to-do-a-ph-d-or-post-doc-in-bioinformaticscomputational-biology/

 
0. 컴퓨팅은 21세기 생물학의 가장 중요한 기술입니다.
시간이 점차 흐를 수록, 생물학은 점점 더 양적인 과학이 되어가고 있습니다. 지난 3세기 간 생물학은 관찰의 과학에서 실험의 과학으로, 그리고 데이터 과학으로 변화되었습니다. 가장 밑에 있는 과일들이 먼저 따이듣이, 관찰과 실험으로 발견 할 수 있는 과일들은 벌써 따였고, 그로인해 새로운 발견을 하기가 점점 어려워지고 있습니다. 향후 새로운 발견에는 큰 데이터세트와 고급 분석 방법을 사용하는 것이 필요로 합니다. 하지만 빅 데이터와 복잡한 모델은 computational skill을 필요로 합니다. 앞으로 이러한 현실을 피할 수 있는 방법은 없습니다.

분자생물학의 선구자이자 노벨상 수상자인 Walter Gilbert는 생물학의 앞으로 20년의 미래에 대해 이러한 말을 했습니다. 

"To use this flood of [sequence] knowledge, which will pour across the computer networks of the world, biologists not only must become computer literate, but also change their approach to the problem of understanding life."

또 다른 분자생물학의 선구자이자 노벨상 수상자인 Sydney Brenner는 몇년 동안 이 이슈에 대해서 이렇게 주장하였습니다.

"I spent many hours persuading people that computing was not only going to be the essential tool for biological research but would also provide models for analyzing complexity…The development of sequencing techniques and their widespread application has generated enormous databases of information, and the need for computers is no longer questioned"

1. Computational skill은 더 다양한 곳에 적용할 수 있습니다.
현실을 직시해 봅시다. 생물학이란 분야에서 모든 Ph.D.와 포닥이 아카데믹 리서치 쪽의 커리어를 갖지 못합니다. 최근 워싱턴 포스트의 리포트에 의하면 생명과학 또는 생물학 분야의 박사 오직 14%만 5년 이내에 정말로 누구나 탐내는 아카데믹 위치에 간다고 합니다. 그러므로 만약에 당신의 박사 또는 포닥 과정때 받은 모든 트레이닝이 아카데믹 분야 밖에서 쓰여지게 된다면, 가장 넓게 적용 될 수 있는 스킬을 획득하는게 어떨까요? 실험 스킬들은 거의 생물학 또는 의학 분야에서의 연구실에서만 사용될 수 있습니다. 반면에 Computational skill은 이 분야를 넘어서, (생물)과학 외 더 넓은 시장에서 사용될 수 있습니다. 당신의 컴퓨터 기술을 늘리는 것은 단지 직업만 찾을 기회를 주는 것이 아닙니다. 컴퓨터가 어떻게 작동하는지에 대한 깊은 생각과 매일 상호작용하여 숙달된다면 컴퓨터는 당신의 삶에 또 다른 혜택을 줄 것 입니다.

2. 컴퓨팅은 당신의 핵심 과학적 능력을 발전시키는데 도움이 됩니다.
생물학은 본질적으로 혼란스러운 학문입니다. 일부 생물학자들이 좋은 실험 설계 및 통계 분석을 통해 이 어지러움을 극복하는 방법을 훈련하지만, 대부분의 생물학자들은 데이터 수집 및 분석에 대해서는 나쁜 습관을 가지고 있다고 합니다. 컴퓨팅은 사람이 임시방편적인 방법으로 할 수 있는 과학을 직면하게 해줄 수 있고, 그러므로 중요한 과학적인 능력들을 터득할 수 있게 해줍니다. 이런 능력에는 논리적인 실험 설계, 지속적인 데이터 수집, 재생 가능한 방법의 개발, 적절한 통계 방법을 사용하여 데이터를 분석하는 것이 있습니다. 그래도 당신이 벤치 또는 필드를 떠나야 하는 것에 대해 확신이 안선다면, 컴퓨터를 교육을 받아서 실험 능력을 향상시키는 과학적인 모범 사례를 개발합니다.!

3. Ph.D.와 포닥과정을 사용하여 새로운 능력을 계발해야 합니다.
대부분의 생물학자들은 고등학교 및 학부생 때 배운 실험 기술들을 가지고 박사과정에 진학합니다. 아마도 이런 기술들은 가장 첨단적인 것이 아닐 수 있고, 당신이 실험 기술을 연마하기 위해 첨단 연구를 수행하고 있지도 않을 것 입니다. 그럼에도 불구하고 당신은 박사과정에 들어오기까지 많은 훈련들을 받아왔습니다. 반면에 과학적인 컴퓨팅 기술은 엑셀을 사용하는 방법과 GUI 바탕의 통계 패키지 사용법만 배웠을 것 입니다. 그러므로 당신의 박사 및 포닥 과정을 여태까지 가지고 있던 기술들을 발전시키는 것 뿐만 아니라, 새로운 것을 배우는데 써야합니다.
저자의 생각은 Computational biology를 연마하는데 가장 최적의 시간은 박사과정이고, 마지막 기회는 포닥이라고 합니다. 그 이유는 박사과정 동안은 시간이 있고, 안정적인 재원을 지원받고, 사무구조가 당신을 보호해 주고 있기 때문입니다. Computational skill을 훈련하는데 포닥도 좋은 선택입니다. 하지만 짧은 계약기간, PI에 대한 큰 의존성, 논문 출판에 대한 높은 기대는 당신이 박사과정 때 처럼 시간이 많다는 것을 의미하지 않습니다. 그래서 저자는 좋은 PI를 찾아가라고 말합니다.

4. 당신은 생물학에 대한 더 특별한 능력을 계발 할 수 있습니다.
위에서 말씀 드렸다 시피, 대부분의 생물학자들은 실험적인 훈련들은 받았지만, 진보된 컴퓨터 훈련을 받은 사람은 아직 소수 입니다. 이것이 (고맙게도!) 변하는 동안, 당신이 코드를 짤 수 있다면 적어도 10년 동안은 post-genomic 시대의 생물학에서 경쟁적으로 우위를 차지할 수 있습니다. 그리고 당신이 다른 사람들이 낼 수 없는 결과를 낼 수 있고, 더하여 무리 중에서 당신을 돋보이게 할 수 있는 능력을 가지고 있음으로, 고용시장에서 당신은 더욱 더 경쟁력을 가질 수 있습니다.

5. 당신은 더 많은 수의 논문을 출판 할 것 입니다.
항상 그렇다고 느끼는 것은 아니지만, 박사과정과 포닥은 진짜 빨리 지나갑니다. 그러므로 당신은 시실패하는 실험으로 꾸물거릴 수 있는 시간이 별로 없습니다. 그러나 오해하지 마십시요, Computational biology도 실패한 실험 만큼 혹은 보다 더 실패를 안겨다 줍니다. 하지만 결정적으로 실패는 weeks/month 단위가 아닌 hours/day 단위로 생깁니다. 그러므로 당신에게 다른 일에 더 빨리 착수 할 수 있도록 해줍니다. 결과적으로 Computational biology로 인해 당신이 시간적으로 더 많은 논문을 출판 할 수 있다는 것 입니다. 당신은 아마도 실험 논문이 더 어렵기 때문에 그 만큼 가치가 더 있을 것이라고 생각 할 수 있지만, 출판은 아직 과학계에서 주화로 남아 있습니다.
게다가 교수임용위원회의 속담같이 내려오는 말 "읽지는 못하더라도 셀 수는 있다"는 아직도 유효합니다. 더 심각하게 말하자면, 고용주 또는 펀딩 에이젼시가 연구원에게 바라는 것은 좋은 아이디어가 있는지와 그 아이디어를 성취할 수 있는지 입니다. 논문의 출판은 당신이 프로젝트를 끝낼 수 있다는 중요한 증거입니다. 그러므로 Computational biology는 당신이 다른 사람 보다 좀 더 빨리 과학계에서 성공 할 수 있게 해줄 수 있습니다.

6. 당신은 당신의 연구에 좀 더 융통성을 가질 수 있습니다.
저자가 말하는 Computational biologist의 가장 좋은 점은 실험 생물학을 할 때 보다 좀 더 자유롭다는 것 입니다. 당신은 컴퓨터 분석으로 가능한 모든 일을 할 수 있습니다. 이런 일은 범위가 Computational Neuroscience에서 부터 Theoretical Ecology 그리고 그 사이에 있는 모든 것 까지 엄청나게 광범위 합니다. 그리고 당신이 특정 실험 테크닉과 잘 연계 한다면 이 토픽에서 저 토픽으로 좀 더 자유롭게 넘어다닐 수 있습니다. 이러한 범위의 융통성은 당신의 지적인 호기심을 충족 시켜 주거나 최신 유행을 따라갈 수 있게 해줍니다. 초보 연구자에게 있어 가장 중요한 점은 Computational biology를 통해 얻는 융통성이 커리어 초기에서 부터 자신의 연구 프로그램을 계발하고, 이것으로 PI에게 다가갈 수 있다는 것 입니다. 이것은 당신이 커리어 초기에서 부터 독자적인 프로젝트를 맡아서 한 경험을 늘려주기 때문에, 나중에 당신이 성공할 확률을 더 욱더 높혀 주기에 아주 중요합니다.

7. 일에 방법에 있어서 좀 더 자유로울 수 있습니다.
일과 삶의 균형에서 Computational biology는 많은 이점들이 있습니다. 그러나 꽤 높은 생산성을 계속해서 유지해야 합니다. 실험실에 묶여있는 것과는 다르게, Computational biology는 거의 아무대서나 할 수 있을 뿐더러, 재택근무도 가능 합니다. 장시간 동안 이런 일에 대한 융통성은 당신의 커리어를 잘 수용할 수 있도록 도와줄 것이고, 삶의 어려운 시기를 헤쳐나갈 수 있게 해줄 뿐 만 아니라, 가족을 만드는 것 같이 인생의 큰 결정을 쉽게 할 수 있도록 해 줄 것 입니다. 시약을 뒤지거나 세포를 걷으러 실험실로 달려가는 것을 당신의 삶에 융합시키는 것 보다 코딩과 프로그램 돌리는 것을 당신의 삶에 융합하는 것이 훨씬 더 쉬울 것 입니다. 저자가 여기서 분명히 말하고자 합니다: 만약에 당신이 아카데믹한 생물학 분야의 커리어와 가족을 동시에 갖고 싶다면, 당신이 실험실에 갖혀 있는 것 보다 Computational biology를 박사과정 또는 포닥 때 하는 것이 위에 목표를 이루는데 훨씬 도움이 될 것입니다. 이것은 여성에게도 적용 됩니다. 밑에 글을 보십시요. 

8. Computational research는 비용효과가 큽니다. 
현재 공개적으로 사용할 수 있는 데이터가 너무 많기 때문에 Computational biology연구는 큰 예산 소모를 요구하는 실험보다 비용이 더 적게 듭니다. 이것은 몇 가지 이유 때문에 중요 합니다. 첫 번째로 Computational biology는 펀딩에 좀 덜 의존적 입니다. 그러므로 펀드를 따오기 위해서 지나친 시간을 낭비하지 않아도 됩니다. 당신은 그냥 하고 싶은 과학을 하면 되는 것 입니다. 이것은 지금 같이 현대의 경제 시대에 매우 중요합니다. 위에서 말했다 시피, Computational biology의 적은 비용은 자신의 연구를 이른 커리어에서 디자인 할 수 있도록 해줍니다. 비용효과는 당신이 새로운 연구실을 꾸렸을 때와 지속적으로 같은 생산성을 유지하는데도 중요합니다. 마지막으로 Computational biology의 비용효과는 과학 경제 도상 국가의 연구자와 부유국의 연구자를 동등한 입장에 서게 해줍니다. 저자가 멋대로 판단을 내린 것에 사과를 하지만 제한된 예산을 가지고 있는 개발도상국가의 연구자들은 세계적으로 톱 클래스가 되기 위해서 Computational biology를 선택하는 것을 숙고해야 한다고 합니다.

*[저의 생각으로, 만약에 간단한 분석을 한다면 wet lab 시약 및 장비 비용에 비해 dry lab이 돈이 좀 더 적게 들겠지만, 좋은 연구를 위해서 서버를 구축을 하기 시작한다면 dry lab도 만만치 않은 비용이 들어간다고 생각합니다. 많은 사람들이 "컴퓨터 한대만 있으면 쉽게 할 수 있는거 아니야?" 라고 생각하겠지만 제가 프로그램을 돌려본 결과 더 큰 메모리와 더 좋은 연산장치가 필요합니다.] 

9. 성공한 과학자는 마지막에 오피스로 귀결 됩니다.
만약에 당신이 성공하고 그렇게 갈망하던 PI 위치에 오른다면, 당신은 마침내 오피스 안에서 생활하게 됩니다. 몇몇의 용감한 영혼들은 실험실로 찾아가 실험을 할 것 이지만, 이것은 매우 드문 상황입니다. 사실 성공한 아카데믹 연구자의 토착 서식지는 사무실의 컴퓨터 앞에 의자 입니다. 당신이 물론 오피스안에서 wet lab과 필드 일을 할 수 는 없지만, 책상에 앉아 Computational biology 연구는 할 수 있습니다. 가장 많이 인용이된 bioinformatian인 Webb Miller가 말했듣이 자신의 연구를 계속하는 것은 당신의 긴 커리어의 여행에서 당신이 하는 일에 계속 동기 부여를 할 수 있는 가장 좋은 방법 중 하나입니다. 기억하십시요, 당신의 장기 목표는 "Principal Investigator(연구 책임자)"가 되는 것이지 "In Principle Investigator(원칙적 연구자)"가 되는 것이 아닙니다. 그러므로 당신이 아직 젊고 연구에 뜻이 있다면 한번 질문 해 보십시요: 당신 연구실의 다른 누군가가 모든 발견을 하는데 재미를 보는 동안 당신은 왜 대부분의 커리어에서 쓰지 않을 기술을 훈련 받으시나요?

10. [당신은 왜 이 리스트가 숫자 0에서 부터 시작하는 지 알아야 합니다.]
저자가 이 글을 쓴 이유는 Computational biology를 하면서 얻는 유익함에 대하여 토론을 하고자 였습니다. 저자가 이 리스트를 Top 10 리스트로 만들지 않고 Top N 리스트로 만든 이유는 또 다른 좋은 의견을 계속해서 추가 하기 위함입니다.



원문 출처: https://caseybergman.wordpress.com/2012/07/31/top-n-reasons-to-do-a-ph-d-or-post-doc-in-bioinformaticscomputational-biology/

번역본 출처: Korean Bioinformatics Facebook Group

728x90
반응형
Posted by Gun들지마
반응형

유전자 발현의 상대적인 양을 알아보는 RNA-Seq은 현재 널리 이루어지고 있는 실험 방법입니다.

많은 연구가 이 RNA-Seq을 통해서 이뤄지고 있고, 또 흥미로운 발견들도 계속 되고 있습니다.


하지만, 생물을 공부하는 학생의 입장으로는 이러한 개념이 낯설기만 합니다.

특히, 실험을 마치고 나온 데이터를 분석하기 위해서는 여러 툴들을 사용하게 되는데, 지금은 워낙 많은 방법으로 워낙 많은 툴들이 나와있어서, 자신의 실험에 맞는 툴이 어떤 것인지 애매할 때가 있습니다.


이 고민의 중요한 과정인 Read count와 FPKM에 대해 오늘은 알아보려고 합니다.


RNA-Seq 데이터를 받아들고 분석하기위해서, 유전자 발현의 양을 측정하는 기본적인 방법에는, 크게 두가지가 있습니다.


1. read count는 말그대로 하나의 유전자의 위치에 assemble된 read들의 숫자를 센 값입니다.

2. FPKM은 Fragments Per Kilobase of exon per Million의 약자인데, 단순히 숫자를 세는 read count와는 다르게, paired-end read 두개가 합쳐져서 하나의 fragment를 이루고, 그 숫자를 exon의 총 길이에 나눠서 유전자의 길이에 따른 normalization을 한 값입니다. 그리고 그것을 다시 million reads 로 나눠서 library size에 normalization을 한 값이죠. 그래서 이 방법으로는 다른 library size의 샘플을 비교할 수 있게됩니다. 예를 들어서 60 million reads 가 나온 샘플 A와 30 million reads가 나온 샘플 B의 같은 유전자 C가 어느 샘플에서 더 많이 발현되었는지 비교를 가능하게 해주는 것이 FPKM입니다.


그러면 사람들은 왜 FPKM을 항상 쓰지 않고, read count를 쓰기도 하는걸까요?


거기에 대한 의문과 비교는 이 블로그 포스트에 잘 정리되어 있습니다.

링크의 저자는 자신이 가지고 있는 데이터로 FPKM과 read counts를 비교를 했습니다.

위 그래프에서도 보시다시피, 같은 데이터를 가지고 계산하더라도 FPKM과 Read Count는 많은 차이가 납니다.


당연히, 어떤 방법을 택하느냐에 따라서 실험의 분석결과도 많은 차이가 나겠죠?

이러한 현상은 여러 과학자들에 의해 활발하게 토론되어 왔고, 또 두 방법을 비교하는 논문도 여러차례 나오고 있습니다.

(Rapaport et al., 2012; Seyednasrollah et al., 2015 등)


위 그래프를 가져온 블로그의 주인도 비슷한 이야기를 합니다. FPKM과 read-count는 결국 두개의 다른값이고, 어느 것이 더 정확하고 덜 정확하다는 결론을 내리기는 힘들다고 합니다.

자신의 실험의 목적이 무엇이냐에 따라서 달리 쓰여야한다고 합니다. 그래서 항상 두가지 방법을 다 써보는 것도 추천을 하고있습니다.


그러면 어떤 경우에 FPKM을 쓰고 어떤 경우에 read-count를 써야할까요?

여기서 절대적인 결론을 내릴 수는 없지만, 여러 토론과 글들을 읽어본 결과, within sample comparison에는 FPKM을, across sample comparison에는 read-count를 쓰는 것이 좋다고 대체로 이야기하고 있더군요.

물론 이 말에 전부 동의하시지는 않겠지만, 왜 그런지 한번 알아보도록 하겠습니다.


그 이유는 normalization을 하는 방법의 차이입니다. 

FPKM은 normalization을 샘플에 따라 각각 합니다. 즉, 하나의 샘플의 데이터 안에서, 유전자의 길이와 전체 library 의 양에 따라 normalization을 합니다.

반면에 read count는 그런 normalization의 과정없이, 서로 다른 샘플들을 하나로 묶어서 normalization을 나중에 합니다. 그러므로 normalization 이 각각의 샘플에서 따로 된 경우 보다는  read count의 normalization이 샘플 간의 비교에서는 더 나아보일 수도 있지요.

즉, 하나의 샘플에서 어떠한 유전자가 더 혹은 덜 발현 되었나 비교를 하는 경우에는 FPKM을, 다른 샘플간에 어떤 유전자가 다르게 발현되었냐를 볼때에는 read count를 추천하더군요.


하지만, 이것은 어디까지나, 각 샘플의 library양이 비슷하거나 동일할 때의 경우입니다.

만약 library의 read 양이 샘플간에 엄청 차이가 난다면, FPKM이 나을 경우도 있다고합니다.


결국, 자신의 실험 디자인에 따라, 어떤 것을 택하는 지는 자기에게 달려있습니다. 아, 이렇게 애매모호한 결론 싫어하지만 어쩔 수가 없군요.


FPKM 방법을 쓰는 대표적인 분석 툴은 Tuxedo pipeline (tophat2-cufflinks-cuffdiff/hisat2-stringtie-bowtie) 가 있구요. read count를 쓰는 대표적인 분석 툴은 EdgeR 혹은 DESeq2가 있습니다.




728x90
반응형
Posted by Gun들지마
반응형

 

Bioinformatics에 관련된 아주 좋은 슬라이드가 있어서 작성자님의 허락을 맡고 퍼왔습니다.

 

출처: http://ann890815.tistory.com/49

 

728x90
반응형
Posted by Gun들지마