반응형

 

싱글셀 데이터는 클러스터 별로, 그리고 세포 종류 별로 자세한 정보를 얻을 수 있지만 샘플 분석을 하면서 샘플 간에 차이는 얼마나 날까? 같은 Condition이면 전체적으로 얼마나 비슷한 유전자 발현 패턴을 가질까? 하는 궁금증이 들 때가 있습니다.

 

Bulk RNA-Seq 분석을 하면서 DESeq2나 EdgeR을 쓰면 PCA plot을 만들어서 간단하게 알아볼 수 있죠?

DESeq2 패키지의 plotPCA 펑션을 이용해 PCA plot을 만드는 코드, 출처: DESeq2 Manual

이런 걸 Seurat에서도 하고 싶어서 알아봅니다.

Seurat 웹페이지에는 나와있지 않지만 생각 외로 간단히 할 수 있습니다. AverageExpression으로 말이죠.

 

일단, 제 Seurat Object는 myData라는 이름으로 저장되어 있습니다.

먼저 Idents()로 보고 싶은 이름을 지정해줍니다.

그런 다음, 저는 Integration을 SCTransformation을 썼으니까 Default Assay를 SCT로 맞춰주고 AverageExpression 으로 각 샘플의 유전자별 평균 발현량을 계산해줍니다.

싱글셀 시퀀싱 데이터의 특징 중 하나는 데이터의 빈 자리, 즉 0 값이 많이 있는 경우가 많아서 얘네가 많이 있으면 저희가 PCA를 계산할 때에 영향을 크게 미치게 됩니다. 그러므로 모든 샘플에서 0이 있는 유전자를 janitor 패키지를 이용하여 지워줍니다.

그리고 prcomp 펑션을 이용해서 PC를 계산합니다.

이제 PC 계산을 다했고 그 결과가 mySCTpca에 저장되어있으니 그리기만하면 되겠죠?

좀더 예쁘게 그리기 위해서 샘플별 정보를 입력하고, ggbiplot으로 색깔별로 구분을 해줍니다.

 
ggbiplot이 두개인데, 윗 줄은 색깔 구분없이 플랏을 그린 거고, 밑 줄은 condition별로 색깔 구분해서 그려보았습니다.

그러면 아래와 같은 그래프가 그려집니다.

참 쉽죠?

뭐 간단하게 만든거니까 플랏 비율이나 샘플 이름 겹치는 건 실눈뜨고 넘어가도록하죠.

 

그런데 여기서 음......

아 예쁘지가 않아요 PCA가 뭔가 맘에 안들어요.

RNASeq, 특히 싱글셀 RNASeq 같은 고차원의 high-throughput 데이터들은 noise가 많이 들어올 수 있기 때문에, PCA로 한번에 딱! 보려고 하면 막 겹치고 예쁘게 나오지가 않아서 논문에 내려고 하면 음... condition 별로 구분이 가긴가지만 확연하게 딱! 구분이 가지가 않아요.

이럴 때 쓰라고 있는 건 아니지만, PCA와 비슷한 분석 방법으로 PLS-DA라는 것이 있습니다. Partial Least Squares-Discriminant Analysis의 줄임말으로써, PCA는 데이터의 variance를 최대한 유지하면서 dimension reduction을 하려고 하는 반면에, PLS-DA는 사전에 그룹에 관한 정보를 미리 줌으로써 covariance를 최대한 유지하면서 분석하는 방법입니다. 자세한 계산방법이나 차이점 및 장단점은 다음에 다뤄보기로 하고 여기서는 이 알고리즘을 이용하여 플랏을 만들어 보겠습니다.

 

아주 간단합니다. 저희가 PCA에서 만들었던 AverageExpression 값을 그대로 써서 Mixomics 패키지를 이용해서 그려보겠습니다.

일단 mixomics 패키지를 깔고 불러옵니다.

그런 다음 아까 우리가 janitor 패키지를 이용해 0값을 제거해서 저장한 mySCT2 변수를 그대로 이용해서 PLSDA를 계산하고 그려줍니다.

 

그러면 아래와 같은 플랏이 나와요.

 

음... 아까 PCA랑 같이두고 비교해볼까요?

 

같은 데이터로 서로 다른 분석방법을 이용해 시각화를 했을 때에 왼쪽의 PCA랑 오른쪽의 PLS-DA랑 어떤게 condition간의 차이를 보기가 쉬울까요?

 

그럼 오늘은 여기서 끝!

 

728x90
반응형
Posted by Gun들지마