반응형

역시 Bioinformatics하면 Phylogenetic Tree를 만드는 과정을 빼놓을 수가 없겠죠?

 

그래서 여기서는 Phylogenetic Tree의 기본적인 개념과 좀더 들어간 개념들을 다룰 예정입니다.

 

1. Terminology

Phylogenetic Tree에서 기본적으로 다뤄지는 단어들은 node, branch, leaves, root 등이 있습니다.

일단 Phylogenetic Tree가 뭔가는 다들 아실테지요. Phylogenetic tree는 종과 종(species) 유전자와 유전자의 genealogical 관계를 도표로 나타낸 것 입니다.

node라 함은, tree에서 하나의 개체 혹은 유전자를 나타내고, 그 유전자와 유전자를 이어주는 선이 branch입니다. tree 관계상 가장 하위에 위치한 node를 leaf 라 하구요. 한 tree에서 가장 위로 거슬러올라간 ancestor를 root이라고 합니다.

 

2. Rooting the tree.

Tree는 크게보아서 root(뿌리)가 있는 것과 없는 것으로 나눠지는데요.

만약에 진화의 속도가 시간에 비례해서 일정하다면, distance-matrix와 maximum likelihood로써 그 tree의 root을 결정할 수가 있지만, 보통은 일정하지가 않죠. 그래서 가장 자주 이용되는 방법이 outgroup을 이용하는 방법입니다.

비교를 하고 싶은 개체들을 쫙 세워놓고선, 걔들이랑 좀 관련이 덜됐다 싶은애를 넣어서, 아 얘가 root이다라고 선언하고 tree를 만드는 방법입니다.

예를 들어서 인간, 침팬지, 원숭이, 오랑우탄 들의 관계를 알고싶어서 tree를 만든다고 하면, outgroup으로 개를 집어 넣는거죠. 그렇다면, 개가 있는 branch가 root이 되는건 당연하겠죠?

하지만 이방법은 모든 종의 관계를 나열한 universal tree of life에는 적용되지않는답니다. 모든 생물이 들어가있는데 돌멩이 이런걸 넣을순 없잖아요?

 

3. Bifurcating vs. multifurcating trees

Bifurcating tree라 함은 말그대로, tree가 branch들로 나뉠때 한곳에서 2개이하로 나뉘는 것입니다. multifurcating은 3개이상 나뉘는 tree가 되겠죠. 프로그램을 짤때 특히 tree를 이용한 프로그램을 짤 때 이 bifurcating인지 아닌지가 중요하게 여겨질때가 많습니다. 예를 들어서 bifurcating tree만 받는 프로그램에 multifurcating tree를 입력한다면 에러가 나겠죠. 저도 얼마전에 그런경험이 있네요. 그런 경우에는 간단하게 계산기의 연산자입력하는 프로그램을 조금 고쳐서 multifurcating을 bifurcating으로 만들어 주면 된답니다.

 

4. topological distance between trees

두개의 tree가 있을때 이 두개의 tree가 얼마나 다른지 혹은 가까운지 측정하고 싶을때가 있습니다. 예를 들어서 어떤 새로운 알고리즘을 테스트 한다든지, 아니면 두개의 다른 유전자들을 가지고 나온 두개의 다른 tree를 비교하는거죠.

널리 쓰이는 방법은 partition distance라고 Robinson and Foulds(1981)에 나온 방법이 있는데요. 이 방법으로 금방 계산이 가능하긴 하지만, 단점 또한 세가지 있습니다. 첫째로, 이 방법으로 특정한 비슷한 관계는 알아내지 못하는 점이랑, 두번째로, 이 방법은 branch length를 무시한다는 점, 그리고 마지막으로 multifurcating tree에서는 심각한 오류가 날 수 있다는 점입니다.

 

5. Consensus trees.

partition distance가 두개의 tree가 얼마나 다른 지를 나타낸다면, consensus tree는 여러개의 tree에서 공통점을 뽑아서 대표하는 tree입니다. 여러가지 방법이 있지만 두개만 소개하도록 하겠습니다.

 

Strict consensus tree: 이 tree는 모든 tree에서 공통적으로 나타나는 node만 나타내는 tree입니다.

Majority-rule consensus tree: 이 것은 tree들 중에서 적어도 반 이상에 존재하는 node들만 나타낸 tree입니다.

 

 

728x90
반응형
Posted by Gun들지마
반응형

Coarse-grained methods.

 

출처: 위키피디아(http://en.wikipedia.org/wiki/Molecular_dynamics#Coarse-graining_and_reduced_representations)

 

분자역학을 계산하고 시뮬레이션 하는데에는 아주 고성능의 컴퓨터와 많은 리소스를 잡아먹게 됩니다. 왜냐하면 모든 원자를 하나하나 다 계산해야되기 때문이죠. 또한 조금 긴 시간동안 시뮬레이션을 하게되면 (예를들어 1 microsecond이상) 그것또한 많은 리소스를 요구합니다.

그래서 이 coarse-grained method는 원자 하나하나를 나타내는것 보다는 pseudo-atom이라는 하나의 원자 그룹을 나타내어 계산을 하게됩니다. 이런식으로 그룹들을 대표하여서 시뮬레이션을 하는 방법은 또한 reduced representation이라고도 불리죠.

 

coarse graining method의 예로는 Discontinuous molecular Dynamics와 Go-models가 있습니다.

그리고 이 방법은 protein folding, liquid crystal, polymer, DNA supercoiling, RNA structure등에 적용되구요. 제가 관심있는 protein folding에서는 주로 하나의 amino aicd를 하나의 pseudo-atom으로 나타낸답니다.

728x90
반응형

'Biological Science > Methods and Materials' 카테고리의 다른 글

Phytochrome  (0) 2012.03.09
3D Cell Culture  (0) 2012.02.24
Aldefluor assay  (0) 2012.02.24
RNA interference  (0) 2012.02.17
Pull-down Assay  (0) 2012.02.17
Posted by Gun들지마
반응형

Fast Side Chain Replacement in Proteins Using a Coarse-Grained Approach for Evaluating the Effects of Mutation During Evolution.

 

by Johan A. Grahnen, Jan Kubelka, David A. Liberles.

 

이 페이퍼는 2011년 Journal of Molecular Evolution 73:23-33에 올려진 페이퍼 입니다.

아래의 페이퍼와 비슷하게 저희 연구실의 졸업반 학생이 쓴 페이퍼를 개인적인 번역과 주석을 더한것입니다.

이 포스트의 목적은 순전히 저의 개인적인 이해를 돕기 위한 것입니다.

 

Introduction

 

A number of problems in evolutionary genomics increasingly rely upon an understanding of the role of structure in constraining the sequence evolution, including, the evaluation of the likelihood of observing different amino acid transitions in phylogenetics and ancestral sequence reconstruction, as well as in simulating evolution to understand both the role of structure in determining sequence evolution and the role of evolutionary and population genetic parameters in determining the distribution of protein structure.

이 문장이 길기도 긴데다 좀 중요해 보여서 몇번이고 다시읽었네요 ㅋ

 

Protein folding simuation에 있어서 Homology modeling approach는 기존에 있는 단백질 구조 자료를 가지고 새로운 구조를 예측합니다. 하지만 이때, 새로운 side chain의 구조를 찾는데에는 문제가 생기죠. 한편, Single substition approach는 단백질 구조의 backbone을 변경하지 않고  side chain을 최적화 시키긴 하지만, 이것또한 문제가 있다고 합니다 (an exhaustive enumeration of all the possible side chain configurations in a typical protein is not feasible).

 

그리고 분자역학 시뮬레이션에 있어서 all-atom approach는 불가능에 가까운 방대한 리소스를 요구한다고 설명하고 있습니다. 그래서 이러한 문제를 해결하기 위해서 Coarse-grained method가 요구됩니다 (이 method에 대한 설명은 요기에). 이 Coarse0grained method를 사용함으로써 여러개의 원자를 하나로 묶고 계산에 필요한 리소스와 시간을 아낄수 있습니다. 이 방법에는 연구의 목적에 따라서 1-bead lattice model에서 6-bead model까지 쓰인다고 하네요.

 

이 페이퍼에서는  단백질 구조의 2-bead coarse-grained model을 사용한 SARA(Sidechain Angular Replacement Algorithm)이 소개되었습니다. 이 SARA는 단백질 구조의 population-level에서의 계산시간을 단축시키고, 단백질 구조와 sequence의 진화 시뮬레이션에 대한 새로운 시선을 제공합니다.

 

Methods

사용된 2-bead coarse-grained methode에서는 Calpha와 side chain을 bead로 나타냈습니다. 여기서 Calpha는 1.8 Angstrom의 크기를 가지고 있구요. 그리고 전체의 에너지를 수식화 했는데요.

 

 

로 나타낼 수 있답니다. (와 복잡하네요)

여기서 r은 bead i와 j 간의 간격, dij는 hard-sphere radii의 합, eii는 self-interaction energy of the residue type at i, 그리고 Ec alpha는 Calpha bead의 self-interaction energy 입니다.

 

이러한 side chain replacement method는 C++로 구현되었고 http://www.wyomingbioinformatics.org/LiberlesGroup/SARA/ 에서 소스코드와 간단한 사용법과 함께 다운받을 수 있습니다.

 

 

 

 

 

 

 

728x90
반응형
Posted by Gun들지마
반응형

Binding constraints on the evolution of enzymes and signalling proteins: the important role of negative pleiotropy

 

David A. Liberles, Makayla D. M. Tisdell and Johan A. Grahnen.

 

이 페이퍼는 Proceedings of the Royal Society 에 2011년 4월에 퍼블리쉬된 페이퍼로 첫째저자는 저희 지도교수이고 마지막 저자는 저희 연구실에 이번에 졸업하는 박사과정 학생입니다. 이번에 Johan이 졸업하고 떠나는 관계로 걔가 하던 연구를 제가 물려받게 되어서 더 자세히 이해하기 위해 주석과 느낀점을 적는 포스트입니다.

 

Abstract

A number of biophysical and population-genetic processes influence amino acid substitution rates. It is commonly recognized that proteins must fold into a native structure with preference over an unfolded state, and must bind to functional interacting partners favourably to function properly. What is less clear is how important folding and binding specificity are to amino acid substitution rates. A hypothesis of the importance of binding specificity in constraining sequence and functional evolution is presented. Examples include an evolutionary simulation of a population of SH2 sequences evolved by threading through the structure and binding to a native ligand, as well as SH3 domain signalling in yeast and selection for specificity in enzymatic reactions. And example in vampire bats where negative pleiotropy appears to have been adaptive is presented. Finally, considerations of compartmentalization and macromolecular crowding on negative pleiotropy are discussed.

 

Introduction

Protein을 encode하는 유전자들에 작용하는 selective pressure들은 여러가지가 있는데 그중에, 단백질이 제대로 기능할 수 있도록 하는 요소들이 있습니다. 이 요소들은 그 단백질이 기능과 binding, 그리고 catalysis를 가능하게 하는데요. 그리고 또한 그 pressure는 다른 molecues간의 관계에도 영향을 미칩니다. 이제까지 이러한 pressure들에 대해서 amino acid 레벨의 변화에 대한 연구는 많았지만, 어떤 물체에 bind하느냐도 중요하지만 어떤 물체에 bind하지 않느냐도 또한 중요한 요소중의 하나입니다.

 

Pleiotropy

Pleiotropy (유전자 다면발현)은 하나의 유전자가 하나 이상의 표면 형질을 조절하는것인데요.  이현상은 단백질이 여러가지 물질과 반응할 수 있는 필요성을 나타내기도 합니다. 이 페이퍼에서는 이런 유전자 다면발현에서의 NOT statement를 주로 다루는데, 하나의 유전자에 어떤 단백질이 반응하는가가 아닌 어떤 단백질이 반응하지 않는가를 다루고 있습니다. 이렇게 다룬 NOT statement는 negative pleiotropy로 설명이 가능하고, 이 negative pleiotropy를 도입함으로써 positive pleiotropy를 더 좁혀갈 수 있겠습니다.

 

Negative pleiotropy, protein fold, and system-level constraints.

Positive와 Negative thresholds 둘다 볼츠만 분포(Boltzmann distribution)으로 결정되었습니다. 두가지 요소가 물리적 제한요소에 들어가는데요, 하나는 binding interface의 크기와 방향을 결정하는 protein fold입니다. 이 protein fold가 크면 클수록, 새로운 binding interaction으로 진화할 수 있고, 더 이것을 제한하기위한 selective restriction이 가해지게 된답니다. 두번째는 실제의 물리적인 요소들과 시스템레벨의 제한요소 인데요. Negative pleiotropy는 selective pressure가 pathway에 반응하지 않도록 합니다. 그러므로, 시스템 레벨에서 이것은 deleterious한 물리적인 요소들의 한계점을 나타냅니다.

 

Negative pleiotropy, mutation rate, population size, and ease of  neofunctionalization

Gene duplication에서 새로운 기능이 발현되는 neofuctionalization은 아주 드문 현상이라고 생각되어져 왔습니다. 이러한 neofunctionalization에서 negative pleiotropy는 적어도 부분적인 영향을 끼친다고 예상할 수 가 있습니다. Negative pleiotropy가 active selective pressure로써 미치는 영향은 기존의 binding interaction이 단지 없어지는 것과는 다릅니다.

이 모든걸 고려해보면 큰 인구수와 빠른 mutation rate을 가진 개체는 더 빨리 진화하게 됩니다. Metazoan은 전반적으로 낮은 mutation rate와 인구수를 가지고 있습니다. 그러므로 Metazoan들은 가장 제한된 network를 가지고 있고, NOT statement에 영향을 많이 받게됩니다.

이러한 현상은 SH2와 SH3 domain으로 예를 들었습니다.

 

결과에 대한 더 자세한 토론은 원본 페이퍼를 참조하시기 바랍니다.

728x90
반응형
Posted by Gun들지마
반응형

비터비 알고리즘은 데이터와 모델 (주로 Hidden Markov Model)이 주어졌을때에 가장 확률적으로 높은 상태를 알아내는 방법입니다.

 

동적 프로그래밍 (Dynamic Programming)으로 구현할 수 있고요.

현재의 상태는 그 바로 이전의 상태에의해서만 영향을 받는다는 가정하에 동작합니다.

 

자세한 알고리즘은

Initialization (i = 0):

      v0(0) = 1, vk(0) = 0 for k > 0;

Recursion (i = 1…L):

      vl(i) = el(xi)maxk(vk(i-1)akl);

      ptri(l) = argmaxk(vk(i-1)akl);

Termination:

      P(x, π*) = maxk(vk(L)ak0);

      π*L = argmax­k(vk(L)ak0);

Traceback (i = L…1):

      πi-1 = ptr(πi*)

 

728x90
반응형
Posted by Gun들지마