'Biological Science'에 해당되는 글 56건

  1. 2017.06.14 FPKM and read counts in RNA-Seq
  2. 2013.12.03 Wright-Fisher Model
  3. 2013.11.09 [펌]Bioinformatics 슬라이드
  4. 2013.10.29 Baculovirus Expression Vector
  5. 2013.10.26 Baculovirus 에 대하여
반응형

유전자 발현의 상대적인 양을 알아보는 RNA-Seq은 현재 널리 이루어지고 있는 실험 방법입니다.

많은 연구가 이 RNA-Seq을 통해서 이뤄지고 있고, 또 흥미로운 발견들도 계속 되고 있습니다.


하지만, 생물을 공부하는 학생의 입장으로는 이러한 개념이 낯설기만 합니다.

특히, 실험을 마치고 나온 데이터를 분석하기 위해서는 여러 툴들을 사용하게 되는데, 지금은 워낙 많은 방법으로 워낙 많은 툴들이 나와있어서, 자신의 실험에 맞는 툴이 어떤 것인지 애매할 때가 있습니다.


이 고민의 중요한 과정인 Read count와 FPKM에 대해 오늘은 알아보려고 합니다.


RNA-Seq 데이터를 받아들고 분석하기위해서, 유전자 발현의 양을 측정하는 기본적인 방법에는, 크게 두가지가 있습니다.


1. read count는 말그대로 하나의 유전자의 위치에 assemble된 read들의 숫자를 센 값입니다.

2. FPKM은 Fragments Per Kilobase of exon per Million의 약자인데, 단순히 숫자를 세는 read count와는 다르게, paired-end read 두개가 합쳐져서 하나의 fragment를 이루고, 그 숫자를 exon의 총 길이에 나눠서 유전자의 길이에 따른 normalization을 한 값입니다. 그리고 그것을 다시 million reads 로 나눠서 library size에 normalization을 한 값이죠. 그래서 이 방법으로는 다른 library size의 샘플을 비교할 수 있게됩니다. 예를 들어서 60 million reads 가 나온 샘플 A와 30 million reads가 나온 샘플 B의 같은 유전자 C가 어느 샘플에서 더 많이 발현되었는지 비교를 가능하게 해주는 것이 FPKM입니다.


그러면 사람들은 왜 FPKM을 항상 쓰지 않고, read count를 쓰기도 하는걸까요?


거기에 대한 의문과 비교는 이 블로그 포스트에 잘 정리되어 있습니다.

링크의 저자는 자신이 가지고 있는 데이터로 FPKM과 read counts를 비교를 했습니다.

위 그래프에서도 보시다시피, 같은 데이터를 가지고 계산하더라도 FPKM과 Read Count는 많은 차이가 납니다.


당연히, 어떤 방법을 택하느냐에 따라서 실험의 분석결과도 많은 차이가 나겠죠?

이러한 현상은 여러 과학자들에 의해 활발하게 토론되어 왔고, 또 두 방법을 비교하는 논문도 여러차례 나오고 있습니다.

(Rapaport et al., 2012; Seyednasrollah et al., 2015 등)


위 그래프를 가져온 블로그의 주인도 비슷한 이야기를 합니다. FPKM과 read-count는 결국 두개의 다른값이고, 어느 것이 더 정확하고 덜 정확하다는 결론을 내리기는 힘들다고 합니다.

자신의 실험의 목적이 무엇이냐에 따라서 달리 쓰여야한다고 합니다. 그래서 항상 두가지 방법을 다 써보는 것도 추천을 하고있습니다.


그러면 어떤 경우에 FPKM을 쓰고 어떤 경우에 read-count를 써야할까요?

여기서 절대적인 결론을 내릴 수는 없지만, 여러 토론과 글들을 읽어본 결과, within sample comparison에는 FPKM을, across sample comparison에는 read-count를 쓰는 것이 좋다고 대체로 이야기하고 있더군요.

물론 이 말에 전부 동의하시지는 않겠지만, 왜 그런지 한번 알아보도록 하겠습니다.


그 이유는 normalization을 하는 방법의 차이입니다. 

FPKM은 normalization을 샘플에 따라 각각 합니다. 즉, 하나의 샘플의 데이터 안에서, 유전자의 길이와 전체 library 의 양에 따라 normalization을 합니다.

반면에 read count는 그런 normalization의 과정없이, 서로 다른 샘플들을 하나로 묶어서 normalization을 나중에 합니다. 그러므로 normalization 이 각각의 샘플에서 따로 된 경우 보다는  read count의 normalization이 샘플 간의 비교에서는 더 나아보일 수도 있지요.

즉, 하나의 샘플에서 어떠한 유전자가 더 혹은 덜 발현 되었나 비교를 하는 경우에는 FPKM을, 다른 샘플간에 어떤 유전자가 다르게 발현되었냐를 볼때에는 read count를 추천하더군요.


하지만, 이것은 어디까지나, 각 샘플의 library양이 비슷하거나 동일할 때의 경우입니다.

만약 library의 read 양이 샘플간에 엄청 차이가 난다면, FPKM이 나을 경우도 있다고합니다.


결국, 자신의 실험 디자인에 따라, 어떤 것을 택하는 지는 자기에게 달려있습니다. 아, 이렇게 애매모호한 결론 싫어하지만 어쩔 수가 없군요.


FPKM 방법을 쓰는 대표적인 분석 툴은 Tuxedo pipeline (tophat2-cufflinks-cuffdiff/hisat2-stringtie-bowtie) 가 있구요. read count를 쓰는 대표적인 분석 툴은 EdgeR 혹은 DESeq2가 있습니다.




728x90
반응형
Posted by Gun들지마
반응형

Wright-Fisher Model

 

Wright-Fisher Model은 genetic drift의 한 모델이자 population genetic model의 가장 간단한 수학적 모델입니다.

 

이렇게 간단한 수학적 모델을 끌어내기 위해서 여러가지 전제조건을 달고 있는데요, 이 전제 조건들은 Hardy-Weinberg Equilibrium에 쓰여진 여러 전제조건들과 비슷합니다.

 

1. 겹치지 않는 세대: (non-overlapping generations) 1년 살다가 이전 세대가 씨앗을 남기고 겨울에 다 죽는 1년생 식물 처럼 이전 세대와 그다음 세대의 인구가 겹치지 않습니다

2. 무작위적인 짝짓기: (random mating) 같은 gene의 경우에 모든 세대의 계승이 무작위로 이루어 집니다.

3. 유한하고 일정한 인구: (finite and constant population) 여기서 Hardy-Weinberg Equilibrium 과 다른 점인데요. 인구의 수가 세대마다 일정하며 유한합니다.

 

아주 간단하게 프로세스를 정리해보겠습니다. haploid 인 10개의 개체가 하나의 인구를 이루고 있다고 가정해 봅시다. 그러면 세대(generation)마다 인구수가 동일하기 때문에 다음 세대에서도 10개의 개체가 생깁니다. 이 다음 세대의 10개의 개체는 각각 하나의 parent를 랜덤하게 가집니다. 여기서 parent-offspring 관계는 선으로 나타낼 수가 있겠죠. 그리고 offspring 은 parent 와 같은 유전정보를 가집니다. 이것을 간단하게 도식으로 나타내어 보면 다음과 같습니다.

 

 

 

 그리고 10세대가 지나면 다음과 같은 도표가 나오겠죠.

 

 

 

Neutral evolution 에서는 모든 개체들이 동일한 fitness를 가집니다. 그리고 neutral Wright-Fisher Model에서는 이 동일한 fitness가 parent로 선택될 동일한 확률을 가집니다. 그러므로, 위의 예를 보았을 때에 하나의 개체는 그 다음 세대에서 parent로 선택될 10번의 기회를 가지게 되고, 이것을 확률로 바꾸면 0.1이 되겠죠.

보통의 경우에 diploid가 많으므로 2N=10 으로 표현을 합니다. (확률로 하면 p= 1/2N, n = 2N)

 

좀더 어렵게 수학적으로 말해보자면, 다음 세대의 각각의 개체는 binomial distribution (이항분포)를 따르고 p= 1/ 2N, n = 2N 이 됩니다. 위의 예에서는 인구수를 10으로 간단하게 나타내었지만, 인구수가 늘어나면 날 수록 n은 증가하고 확률인 p는 감소하겠죠. 그렇다면 이 이항분포는 Poisson distribution으로 나타내어 집니다.

 

여기서 mutation의 개념을 도입해 보겠습니다.

일단 간단하게 정리하기 위해서 지금 저희가 생각하는 mutation은 neutral mutation 즉, mutation이 개체의 fitness에 어떠한 영향도 주지 않는 것을 말합니다.

 

하나의 제한된 인구에서 세대를 거쳐감에 따라 mutation이 일어난다고 가정해 봅시다. 이때 mutation은 새로운 allele을 인구에 소개할 수도 있지만, 다음 세대에서 그 allele이 없어질 가능성도 있습니다. 사실 mutation으로 일어나는 새로운 allele은 활률상으로 없어질 가능성이 많겠죠.

 

예를 들어 보겠습니다. Diploid organism을 설명할 때에 개체수가 N이면, gene의 수는 2N이 됩니다. 또한, 하나의 세대는 t = 1, 2, ....로 나타낼 수 있고, X(t)는 한 allele A가 그 세대에서 일어나는 수를 나타낸다고 합시다. 그러면 이때 X(t)는 1에서 2N까지 나올 수가 있습니다. 그리고 p_i,j는 X(t) = I 일때 X(t+1) = j 일 확률이라고 해봅시다.

 

t+1 세대에서 하나의 유전자는 그전 세대 t 에서 샘플링될 수가 있고, 이 p_i,j 는 이항분포를 다음과 같이 따릅니다.

 

 

복잡해 보이나요? 기본적인 이항분포에서 p = I/2N 이라고 생각해보세요 ㅎㅎ

 

 

 

 

 

 

 

 

728x90
반응형
Posted by Gun들지마
반응형

 

Bioinformatics에 관련된 아주 좋은 슬라이드가 있어서 작성자님의 허락을 맡고 퍼왔습니다.

 

출처: http://ann890815.tistory.com/49

 

728x90
반응형
Posted by Gun들지마
반응형

Baculovirus를 이용한 foreign gene expression에 대해서 알아보겠습니다.

 

일단 시작은 "Opportunities and challenges for the baculovirus expression system"이라는 Dr. Oers의 리뷰 페이퍼를 살펴보겠습니다.

 

생명공학에서는 두 종류의 baculovirus가 널리 쓰입니다. Autographa California multiple nucleopolyhedrovirus (AcMNPV)와 Bombyx mori NPV 입니다.

Baculovirus expression system은 recombinant protein을 많은 양으로 생성하는 것과 posttranslational modification을 eukaryotic system에서 가능하게 하는 장점이 있습니다. 보통 gene expression system은 박테리아인 E. coli를 이용해서 많이 하는데, baculovirus expression system은 박테리아를 이용하지 않고 eukaryotic cell line을 이용한다는 장점이 있습니다. 이렇게 생성된 단백질은 단백질 기능의 연구, 백신 생성 혹은 진단 등에 사용됩니다. 1999년에는 swine fever나 hog cholera 등을 치료하는 백신의 생성 방법이 나오기도 했죠. 2010년에는 전립선 암을 치료하는 방법이 개발 되기도 했구요. 최근에는 유전자 치료에 이용하는 방법을 모색중이기도 합니다.

 

다른 여타의 DNA 바이러스와는 달리 baculovirus는 유전자 발현에 4가지 단계가 있습니다.

Very early phase에서는 숙주의 RNA polymerase II가 차후에 발현될 유전자를 활성화 시키는 유전자들을 transcribe합니다.

Early phase에는 DNA복제와 다음 단계에서 필요한 단백질들을 생성합니다. 여기에는 DNA polymerase, helicase, viral RNA polymerase 등이 있죠.

Late phase에서는 DNA가 복제되고 virion assembly와 virus budding에 필요한 요소들이 발현됩니다.

마지막으로 very late phase에서는 polyhedrin과 P10 단백질이 아주 많은 양으로 발현됩니다.

여기서 P10와 polyhedron protein은 감염 단계를 마무리 시키는 역할을 하지만, Budded virus를 생성하는 데는 필수적인 요소가 아닙니다. 그러므로 이 polh와 p10 promoter들이 외부의 유전자를 발현시키는데에 사용됩니다.

 

 

왼쪽: Wildtype Baculovirus  중간: Recombinant virus with polh promoter

 

여기서 사용되는 promoter는 baculovirus RNA polymerase에 특화된 TAAG transcription initiation site를 포함한 promoter입니다. 이 promoter와 함께 타겟 유전자를 바이러스의 genome에 넣으면 발현되는 형식입니다.

 

이론적으로, 어떠한 유전자든간에 이 시스템에서 발현이 됩니다. 이 성질을 이용하여서, 체내의 면역 체계를 활성화 시키는 단백질만 발현을 시키면 백신이 되는 것입니다.

 

AcMNPV로는 일반적으로 포유류 세포를 감염시키지는 못합니다. 하지만, 바이러스가 세포핵에 직접 들어가면 필요한 유전자들이 mammalian promoter 혹은 viral promoter를 이용하여서 발현이 되기도 합니다. 그러므로 AcMNPV는 포유류 세포에 유전자를 전달하는 역할을 하기도 합니다. 이러한 성질은 후에 human gene therapy에 쓰일 수도 있겠지요.

 

Baculovirus는 비교적으로 큰 genome을 가지고 있습니다. 그래서 direct cloning을 통한 gene insertion은 현실적으로 불가능 합니다. 그래서 초기의 expression system은 homologous recombination을 이용하여서 viral genome 과 transfer plasmid의 gene transfer를 했습니다. 아래의 그림 A와 같이 gene X가 바이러스로 낮은 확률에도 불구하고 recombination이 이루어 집니다. 하지만, 이 tranfection rate이 낮기 때문에 recombinant virus가 plaque purification을 통해서 여러단계를 거쳐 purify되어야되는 단점을 가지고 있습니다.

이 transfection rate을 높이기 위해서 linear된 DNA를 넣는 기술이 아래의 그림 B처럼 발전이 되었습니다. 이 기술로 recombination rate은 30%까지 높아지게 되죠. 그 후 여러가지 실험을 통해 Orf1629 gene을 사용한 linear transfection이 이루어 지게 되고, recombination frequency는 90%까지 높아지게 됩니다. 그리고 이것은 몇몇의 바이오 테크놀러지 회사에의해 상용화가 됩니다.

이 후 baculovirus expression system은 또다른 큰 발전을 맞이하게 되는데요. 바로 bacmid를 이용한 기술입니다 (그림 C). 이 기술은 baculovirus genome을 박테리아 E. coli chromosome에 인공으로 주입하여서 Tn7-recomnibase mediated transposition으로 타겟 유전자를 주입하는 방식입니다. (자세한것은 Invitrogen의 Bac-to-Bac system에 나와있습니다.)

그리고 gigh-throughput expression of foreign genes를 통해서 recombinant virus 생성을 반자동화 된 기술이 나오기도 합니다.

 

 

이러한 편리한 baculovirus expression system에도 몇가지의 단점이 있는데요.

첫번째로는 발현된 단백질의 expression level이 단백질의 종류에 따라 많이 차이가 납니다. 주로 cytoplasmic protein의 경우에는 문제가 없지만, glycoproteins, transmembrane proteins 등은 이 시스템으로 발현이 어렵습니다.

두번째로는 baculovirus mRNA는 splicing이 일어나지 않습니다.

세번째로 mRNA가 아주 드문 codon sequence를 쓴다면 translation이 효율적으로 일어나지 않습니다. 이것은 드문 codon에 대응하는 tRNA의 수가 적기 때문인데요. 아직까지 codon optimization에 대한 연구는 이뤄지지 않았습니다.

네번째는 첫번째랑 조금 연관이 있는데요. 대부분의 mammalian 혹은 glycol- protein의 경우에 native signal peptide가 recomninant protein을 ER 혹은 Golgi로 보냅니다. 이 때 recombinant protein이 다른 쪽으로 가서 세포 안의 proteinase에 의해 없어지는 경우가 있습니다.

다섯번째로는 protein glycosylation의 패턴이 다른 것입니다. 많은 의학용 단백질은 glycoprotein인 경우가 많고 단백질의 특정한 glycosylation pattern에 따라서 단백질-단백질의 반응이 일어납니다. 하지만, 포유류와 곤충의 N-linked glycosylation 패턴이 다릅니다.

그다음 으로는, 이건 제가 아주 관심깊게 보는 단점인데, baculovirus는 lytic process 입니다. 그 말은 결국 숙주의 세포가 죽어버린다는 의미죠. 그리고 polh는 very late phase에서 발현되는 단백질이라서 세포의 감염 이후에 계속적인 타겟 단백질 발현이 안됩니다. polh promoter를 사용하지 않고 early phase에서 사용되는 promoter를 사용할 수 도 있는데, 실험 결과 expression level이 확연히 줄어들었습니다. 하지만, glycorotein의 발현이 더욱 효과적이고, protein aggregation이 되지 않는 등의 장점은 있습니다.

일곱번째로는 단백질이 발현 된 후에 여러 단백질들이 chaperones나 foldase의 도움을 받아서 최종 형태로 folding이 됩니다. 하지만, 곤충 세포에서는 이 chaperone이나 foldase의 기능이 제대로 연구되지 않아서 올바른 형태로 단백질이 folding될 지 확실히 모르는 상태입니다.

 

이렇게 적어놓고 보니 단점만 줄줄이 나열한 것 같은데요. 사실 많은 부분에서 앞에 나열한 단점들은 어느정도 극복이 된 상태입니다. 예를 들어서 마지막에 적은 단점인 foldase는 타겟 단백질 유전자와 함께 발현을 함으로써 올바른 folding을 유지할 수 있게 됩니다.

 

 

 

 

그림 및 내용 출처: "Opportunities and challenges for the baculovirus expression system" by Dr. Monique M. van Oers, 2011 Journal of Invertebrate Pathology

 

 

 

 

 

728x90
반응형
Posted by Gun들지마
반응형

학교에서 사이드 프로젝트로 자신의 전공분야와 관련이 없는 리서치를 주제로 연구 계획을 쓰게되었습니다.

 

제가 학부도 대학원도 Bioinformatics만 파서 그런지 다른 분야에 대한 배경지식이 한참 부족했는데요.

 

그래도 평소에 관심이 있던 Baculovirus에 대해서 공부해 보기로 했습니다.

 

다행히 저희 학교에 Baculovirus Expression System 분야에서는 세계적으로 유명한 교수님이 계셔서 그분의 도움을 많이 받고 있습니다.

 

이 포스트는 Baculovirus에 대한 제가 배운 것들을 순서에 상관없이 늘어놓아 보도록 하겠습니다.

한국에서는 여기에 대해 공부하시는 분들이 거의 없으시네요.

 

Baculovirus는 주로 곤충을 감염시키는 바이러스의 한 종류 입니다. 역사적으로 중국 한국 일본에 성행한 누에고치를 감염시키는 바이러스여서 관심도가 높아지게 되었습니다.

다른 바이러스와 마찬가지로 Baculovirus도 아주 다양한 종류의 바이러스로 이루어진 그룹입니다. Baculovirus genome은 double-stranded, circular supercoiled이고 80에서 180kb로 그 크기가 다양합니다. 이 genome에는 대략 90에서 180개의 유전자가 포함되어 있습니다. 이 genome은 길쭉한 원통형의 모양의 nucleocapsid에 담겨 있으며 그 크기는 230-385nm 정도 됩니다.

Baculovirus Wikipedia page

 

Baculovirus는 nucleocapsid의 종류에 따라 Occluded virions(ODV) 와 Budded virions (BV)의 두가지의 타입으로 나뉩니다.

 

Diagram of a Nucleopolyhedrovirus

그림출처: 위키피디아

 

이 Baculovirus의 특이한 점은 곤충이나 새우 같은 invertebrates 만을 숙주로 삼는 것입니다. 곤충을 감염을 시키면 바이러스가 증식하여서 결국은 숙주를 죽이고 말지만 인간에게는 감염이 되지 않아서 비교적 안전한 바이러스죠.

 

가장 저의 흥미를 끌었던 점은 baculovirus는 바이러스의 자체 RNA polymerase를 가지고 있다는 사실입니다. 보통 바이러스는 숙주의 복제 매커니즘을 이용합니다. 감염한 세포의 DNA나 RNA polymerase를 이용해서 자신의 replication이나 transcription을 하죠. 물론, T7 phage같은 바이러스 자체의 RNA polymerase를 가지는 것들도 있지만, mRNA를 만드는 RNA polymerase는 생물 전체의 공통된 사항이라서 이 RNA polymerase의 단백질 구조 서열을 보면 박테리아던 인간이던 T7 바이러스던 거의 비슷한 염기서열과 구조를 가집니다.

 

하지만 특이하게도 Baculovirus의 RNA polymerase는 기존의 어떤 RNA polymerase 유전자와도 비슷하지가 않습니다. 다른 개체에서는 발견할 수 없었던 4 subunit으로 이루어진 자기만의 독특한 RNA polymerase를 가지고 있습니다.

 

이 RNA polymerase는 또 RNAP II의 강력한 inhibitor은 alpha-amartin에도 면역성을 가지고 있구요. 자기자신만의 promoter를 가지고 있어서 보통의 RNA polymerase보다 훨씬 많은 양의 mRNA를 빠르게 만들어 내는 특성을 가지고 있습니다.

 

이 특성을 이용한 시스템이 Baculovirus Expression System입니다.

728x90
반응형
Posted by Gun들지마