유전자 발현의 상대적인 양을 알아보는 RNA-Seq은 현재 널리 이루어지고 있는 실험 방법입니다.
많은 연구가 이 RNA-Seq을 통해서 이뤄지고 있고, 또 흥미로운 발견들도 계속 되고 있습니다.
하지만, 생물을 공부하는 학생의 입장으로는 이러한 개념이 낯설기만 합니다.
특히, 실험을 마치고 나온 데이터를 분석하기 위해서는 여러 툴들을 사용하게 되는데, 지금은 워낙 많은 방법으로 워낙 많은 툴들이 나와있어서, 자신의 실험에 맞는 툴이 어떤 것인지 애매할 때가 있습니다.
이 고민의 중요한 과정인 Read count와 FPKM에 대해 오늘은 알아보려고 합니다.
RNA-Seq 데이터를 받아들고 분석하기위해서, 유전자 발현의 양을 측정하는 기본적인 방법에는, 크게 두가지가 있습니다.
1. read count는 말그대로 하나의 유전자의 위치에 assemble된 read들의 숫자를 센 값입니다.
2. FPKM은 Fragments Per Kilobase of exon per Million의 약자인데, 단순히 숫자를 세는 read count와는 다르게, paired-end read 두개가 합쳐져서 하나의 fragment를 이루고, 그 숫자를 exon의 총 길이에 나눠서 유전자의 길이에 따른 normalization을 한 값입니다. 그리고 그것을 다시 million reads 로 나눠서 library size에 normalization을 한 값이죠. 그래서 이 방법으로는 다른 library size의 샘플을 비교할 수 있게됩니다. 예를 들어서 60 million reads 가 나온 샘플 A와 30 million reads가 나온 샘플 B의 같은 유전자 C가 어느 샘플에서 더 많이 발현되었는지 비교를 가능하게 해주는 것이 FPKM입니다.
그러면 사람들은 왜 FPKM을 항상 쓰지 않고, read count를 쓰기도 하는걸까요?
거기에 대한 의문과 비교는 이 블로그 포스트에 잘 정리되어 있습니다.
링크의 저자는 자신이 가지고 있는 데이터로 FPKM과 read counts를 비교를 했습니다.
위 그래프에서도 보시다시피, 같은 데이터를 가지고 계산하더라도 FPKM과 Read Count는 많은 차이가 납니다.
당연히, 어떤 방법을 택하느냐에 따라서 실험의 분석결과도 많은 차이가 나겠죠?
이러한 현상은 여러 과학자들에 의해 활발하게 토론되어 왔고, 또 두 방법을 비교하는 논문도 여러차례 나오고 있습니다.
(Rapaport et al., 2012; Seyednasrollah et al., 2015 등)
위 그래프를 가져온 블로그의 주인도 비슷한 이야기를 합니다. FPKM과 read-count는 결국 두개의 다른값이고, 어느 것이 더 정확하고 덜 정확하다는 결론을 내리기는 힘들다고 합니다.
자신의 실험의 목적이 무엇이냐에 따라서 달리 쓰여야한다고 합니다. 그래서 항상 두가지 방법을 다 써보는 것도 추천을 하고있습니다.
그러면 어떤 경우에 FPKM을 쓰고 어떤 경우에 read-count를 써야할까요?
여기서 절대적인 결론을 내릴 수는 없지만, 여러 토론과 글들을 읽어본 결과, within sample comparison에는 FPKM을, across sample comparison에는 read-count를 쓰는 것이 좋다고 대체로 이야기하고 있더군요.
물론 이 말에 전부 동의하시지는 않겠지만, 왜 그런지 한번 알아보도록 하겠습니다.
그 이유는 normalization을 하는 방법의 차이입니다.
FPKM은 normalization을 샘플에 따라 각각 합니다. 즉, 하나의 샘플의 데이터 안에서, 유전자의 길이와 전체 library 의 양에 따라 normalization을 합니다.
반면에 read count는 그런 normalization의 과정없이, 서로 다른 샘플들을 하나로 묶어서 normalization을 나중에 합니다. 그러므로 normalization 이 각각의 샘플에서 따로 된 경우 보다는 read count의 normalization이 샘플 간의 비교에서는 더 나아보일 수도 있지요.
즉, 하나의 샘플에서 어떠한 유전자가 더 혹은 덜 발현 되었나 비교를 하는 경우에는 FPKM을, 다른 샘플간에 어떤 유전자가 다르게 발현되었냐를 볼때에는 read count를 추천하더군요.
하지만, 이것은 어디까지나, 각 샘플의 library양이 비슷하거나 동일할 때의 경우입니다.
만약 library의 read 양이 샘플간에 엄청 차이가 난다면, FPKM이 나을 경우도 있다고합니다.
결국, 자신의 실험 디자인에 따라, 어떤 것을 택하는 지는 자기에게 달려있습니다. 아, 이렇게 애매모호한 결론 싫어하지만 어쩔 수가 없군요.
FPKM 방법을 쓰는 대표적인 분석 툴은 Tuxedo pipeline (tophat2-cufflinks-cuffdiff/hisat2-stringtie-bowtie) 가 있구요. read count를 쓰는 대표적인 분석 툴은 EdgeR 혹은 DESeq2가 있습니다.