지난 몇년 간 전공서적, 연구 관련 논문 등 만 읽다가 이러다가는 감수성이 메말라 버릴 것 같아서 집어든 책입니다. 분명 어릴 때에는 국내 해외 소설 비소설 구분없이 재미있어 보이면 닥치는 대로 했던 독서가 공부를 더 하면 할 수록 그 범위가 너무 좁아지는 것 같아서 운동 중에 짬짬이 읽었던 책입니다.
오랫만의 소설 도전이라서 되도록 쉽게 읽을 수 있는, 그러면서도 흥미롭고 흡입력 있는 책을 찾았는데, 이 책은 그 목적에 딱 들어맞는 책이었던 것 같습니다.
소설의 배경은 가마쿠라 지역에 있는 에노시마라는 섬입니다.
저는 일본을 많이 가보지는 못했지만, 일본 소설 특유의 서정적임과 풍경의 묘사를 좋아합니다. 에노시마라는 곳은 자연경관이 빼어나 관광지로 유명한 섬이라고 하더군요. 그래서 이 소설에서의 묘사도 관광지와 관광객들, 아름다운 노을과 해변을 잘 그리고 있습니다.
이 책은 그러한 에노시마에 위치한 100년의 역사를 가진 오래된 사진관에서 일어나는 이야기입니다. 오랜 전통을 가진 사진관은 마지막 주인인 가쓰라기 후지코가 세상을 뜨고, 외손녀인 가쓰라기 마유가 사진관의 유품을 정리하면서 시작합니다.
어릴 때부터 사진을 좋아하고 사진에 대한 정열에 전공까지 한 주인공은 어떤 사건을 계기로 사진기에서 손을 놓고 전혀 다른 삶을 살게 됩니다.
네 사진이 내 인생을 망쳤어
사진관을 정리하면서 주인공 마유는 사진에 대한 추억과 가슴 속에 묻어두었던 어린 시절의 기억을 우연히 그곳에서 마주친 한 남자의 도움으로 꺼내기 시작합니다. 그와 동시에 주변 인물들의 비밀도 하나씩 밝혀지게 되죠.
넌 자기 건 하나도 없구나.
전체적으로 담담한 내용이지만 나름대로의 반전도 있고 추리도 조금 가미되어 있어서 가볍게 읽기에 좋은 책이었습니다.
하지만 소설 속의 인물들은 모두 하나씩 뭔가 소중한 것을 잃어버리고 난 상태였습니다. 그러한 것들에 대한 추억과 아련함이 가슴 속에 파고드는 이야기였어요.
어려운 추리나 깊은 설정 혹은 복잡한 내용을 가진 책들 중간에 잠시 쉬어가고 싶으신 분들에게 추천하고 싶네요.
Single cell RNA-Seq 데이터를 전처리하는 과정에서 필수적인 단계 중 하나는 배치 효과 수정(batch effect correction)입니다. 하지만 이 단계에서 많이들 혼란스러워 하죠. 이 글에서는 싱글셀 알앤에이 시퀀싱의 배치 효과를 다룰 때에 가장 많이 올라오는 질문들에 관하여 다뤄보겠습니다.
What is Batch Effect in Single-cell RNA-Seq? 싱글셀 알앤에이 시퀀싱에서 배치 효과는 무엇인가요?
Batch effect는 샘플 그룹에서의 차이가 생물학적인 요인이 아니라 기술적인 방법에서 와서, 잘못된 결론을 도출되도록 할 때에 일어납니다. 이 시점에서, batch effect를 수정해야할 필요성이 생기는 거죠.Batch effect correction은 서로 다른 연구나 실험, 혹은 실험 과정에서 온 세포들 혹은 샘플들을 합칠 때에 생기는 기술적인 차이를 제거하는 것입니다.
그거 정규화(normalization)이랑 엄청 비슷하게 들리는데요?
기억해 둘 점: scRNA-Seq normalization도 기술적인 노이즈나 치우침을 제거하는 것을 목표로 데이터에서 나온 유전자 표현의 차이가 정말로 생물학적인 차이에서 오도록 하는 것입니다.
Normalization과 Batch effect correction이 바로잡는 기술적인 노이즈에는 다른 점이 있습니다.
- Normalization은 라이브러리 제작, 대규모의 dropout, 유전자 길이 및 GC 비율 등에 따른 증폭 치우침 (amplification bias) 등이 타겟입니다. (Jiaet al., 2017)
- Batch effect correction은 실험 설계 및 실제 실험 수행 (시퀀싱 기계, 실험 시각, 시약, 실험실 등)에서 오는 변이를 통제하는 것이 타겟입니다 (Haghverdiet al., 2018)
또 하나의 다른 점은 입력하는 데이터입니다. 특히, normalization은 raw count matrix (예를 들어 세포 x 유전자)를 입력값으로 받지만, batch effect를 제거하는 대부분의 방식은 차원이 축소된 데이터 (dimensionality-reduced data; PCA에서 첫 50개의 PC)를 이용하여 계산 시간을 줄입니다. 이것은batch effect가 제거된 결과가 시각화나 그래프 기반의 클러스터링에는 유용하지만, DEG를 찾는 등의 그 후 다른 분석에서는 축소 전의 원래 데이터가 요구됨을 의미합니다. 이러한 방식의 예외도 있는데 raw count table을 사용하는 Mutual Nearest Neighor (MNN) 및 scGen 등의 메소드는 normalization이 된 gene expression matrix를 결과값으로 배출합니다 (Tranet al., 2020).
How to detect batch effect in single-cell RNA-Seq? 싱글셀 RNASeq에서 배치 효과는 어떻게 알아내나요?
Batch effect를 식별하는 전용 툴들이 있기는 하지만, 다음의 간단한 테스트로도 충분합니다.
1. Dissect Principal Components 주성분분석 뜯어보기
주성분분석(PCA; Principal component analysis)는 어떠한 인자가 데이터에서 가장 변이가 큰 지 밝혀줘서, batch effect의 좋은 지표가 됩니다.
Raw data에 주성분분석을 실행한 다음, 상위 주성분(PCs)들을 살펴봅니다. 주요한 변이가 생물학적인 차이보다 실험 batch에 따라간다면, batch effect가 존재한다는 것을 알 수 있습니다.
2. Examine Clusters 클러스터를 살펴보기
PCA와 비슷하지만, 시작적으로 더 이해하기 쉬운 클러스터링 분석도 또한 batch effect를 발견하는 데에 도움이 됩니다. 간단히 클러스터링 분석을 실행한 후에 t-SNE 혹은 UMAP 그래프를 batch correction 전/후로 비교해 봅니다. 그 원리는, 만약 batch effect가 존재 하고 수정되지 않은 채로 있으면, 생물학적인 변이 때문이 아니라 서로 다른 batch들 간의 세포들이 클러스터 하는 것 보입니다. batch correction을 한 다음에는, 그러한 것들은 클러스터링에서 사라집니다.
아래는 말초혈단핵세포(PBMC; Pheripheral blood mononuclear cells) 샘플에서 나온 Kang et al. (2018)의 데이터입니다. 이 데이터는 두개의 batch가 있습니다. 하나는 전신성홍반루푸스(SLE; systemic lupus erythematosus) 환자 샘플이고 (batch 1), 다른 하나는 컨트롤입니다 (batch 2). Batch correction 없이는 클러스터들이 완전히 batch에 따라 분리가 됩니다 (Figure 1). 하지만 다행히도 MNN(Mutual nearest neighbor) 알고리즘을 사용하여 batch correction을 하고 난 뒤에는 세포 클러스터링에서 batch effect를 찾아볼 수가 없습니다 (Figure 2).
Figure 1. t-SNE plot for PMBCs (Kang et al., 2018 ) without batch effect correction. The clusters are color coded by batches: blue = batch 1 (patients), red = batch 2 (controls). Data processed and visualized by BBrowse r
Figure 2. t-SNE plot for PMBCs (Kang et al., 2018) , batch effect corrected by MNN. The clusters are color coded by batches: blue = batch 1 (patients), red = batch 2 (controls). Data processed and visualized by BBrowse r
How do you deal with batch effect in single-cell RNA-Seq? 배치 효과는 어떻게 예방하나요?
1. Prevent potential batch effect 잠재적인 배치 효과의 가능성을 제거하세요
Batch effect가 실험 디자인과 실행 단계에서 생성되기 때문에, 가장 쉬운 해결방법은 탄탄한 실험 계획을 만드는 겁니다! 그러나 가장 이상적인 실험 세팅도 batch effect를 없애기 보단 줄이기만할 수 있으니까, 기술적인 추가 단계가 개발되고 있습니다.
그 예 중 하나는 Cell Hashing입니다. Cell hashing은 많이 번역되는 세포 표면 단백질에 붙는 항체에 짧은 DNA 시퀀스를 붙여 각각의 세포에 바코딩을하는 방법입니다. 다른 예시 중 하나는 Spike-in 인데요. 이것은 유전자 발현량을 정규화하는데에 도움을 줍니다. Spike-in은 시퀀싱 전에 샘플에 첨가하는 인공적으로 합성된 RNA 서열이며, 이 후 분석에서 쉽게 구분이 가능합니다. 이러한 spike-in의 양을 측정하면 샘플 간의 변이를 효율적으로 통제하고 줄일 수 있습니다.
2. Choose a batch effect correction algorighm 배치 효과를 수정하는 알고리즘을 선택하세요
이제까지 여러가지의 batch effect 제거 알고리즘이 개발되어 왔습니다. 그리고 거기에 관한 리뷰도 여러가지 있습니다. 하나 추천하는 리뷰 논문은 Chen et al. (2021) 입니다.
각각의 알고리즘은 그 목표에 어떻게 도달하는 지가 다른데, 여기서는 대표적인 세가지의 알고리즘을 간단히 살펴보겠습니다. 이 세가지 알고리즘은 싱글셀 시퀀싱 데이터의 특징인 많은 수의 세포와 높은 drop-out을 염두에 두고 만들어졌습니다. 이것은 bulk RNA-Seq 및 microarray 데이터를 위해 개발된 기존의 알고리즘보다 더 성능이 뛰어나게 만들어줍니다.
Mutual Nearest Neighbors (MNN) 알고리즘. (Haghberdi et al., 2018) 이름에서 볼 수 있듯이, 이 알고리즘은 batch들 사이에서 가장 비슷한 세포들을 찾아내는 것이 목표입니다. 이러한 세포들은 mutual neighbor로 간주되며, 알고리즘은 그것들이 같은 세포 유형이라고 추정합니다. 그러므로 그것들 사이에서의 차이점은 batch effect 때문에 생긴 것이겠죠. 이러한 차이점의 정도는 batch effect가 얼마나 강한지를 보여줍니다. 이 차이점을 수식화하여 그 정도에 따라 batch들을 합칠 때에 이용합니다.
Seurat Canonical Correlation Analysis (CCA) (Butler et al., 2018) 이 알고리즘은 공통적으로 연결된 구조 (혹은 canonical correlation vectors)를 찾습니다. 이러한 벡터들이 batch를 서로 합칠 때에 세포들을 정렬하도록 도와줍니다.
Harmony (Korsunsky et al., 2019) 이 알고리즘은 먼저 주성분분석을 하여 세포를 저 낮은 차원 공간에 깔아줍니다. 그런 다음 각각의 클러스터의 고유한 수정 요소(correction factor)에 기반하여 그 클러스터의 중심을 찾아냅니다. 그리고 세포들은 그 수정값에 의해 재배열됩니다. 이 과정들이 batch effect가 제거되고 클러스터들이 완벽하게 겹쳐질 때까지 반복됩니다.
위의 세가지 알고리즘을 포함한 11가지의 batch effect correction 메소드들은 Tran et al. (2020) 에 잘 리뷰되어 있습니다. 이 리뷰 논문에서는 같은 세포 유형이지만 다른 기술이 쓰인 경우, 서로 다른 유형의 세포인 경우, batch가 여러번인 경우, 아주 큰 데이터인 경우, 시뮬레이션으로 생성된 데이터인 경우 등의 다섯가지 시나리오에서 분석되어 있습니다. 각각의 경우에서 제일 효과적인 알고리즘은 다르지만, 전반적으로 저자는 Harmony와 Seurat CCA를 추천했으며, Harmony의 수행 시간이 더 빨랐기 때문에 그걸 더 추천했습니다.
3. Check for Overcorrection 과도한 수정인지 확인하기
다른 전처리 단계와 마찬가지로, batch effect correction은 과도하게 수행될 수도 있습니다. 이러한 일은 알고리즘이 생물학적인 차이를 batch effect로 잘못 인식하고 그걸 제거해버릴 때에 생겨납니다.
내 데이터에서 과도한 수정(overcorrection)인지 어떻게 알 수 있을까요? 가장 명백한 사인은 세포들이 아주 많이 겹치는 것입니다. Figures 3 and 4를 보면 과도하게 수정된 데이터셋을 관찰할 수 있습니다. Neuroal ceroid lipofuscinoses (NCL) 단백질, Chromogranin A, 및 parathyroid secretory 단백질을 각각 따로 혹은 동시에 발현하는 세포에는 3가지 유형이 있습니다. Batch effect correction을 적용하고 나니 batch들이 완전히 겹쳐서 세포 유형을 구분할 수 없게 되었습니다 (Figure 3).
Figure 3. Batch effect overcorrection으로 인해 세포 유형이 모두 겹쳐버렸습니다.Figure 4. batch effect correcion을 없앴더니 세포 유형별로 클러스터가 나눠졌습니다.
이러한 경우, 데이터에 더 잘 맞거나 덜 강력한 수정 알고리즘을 적용해봅니다. 또한, batch correction이 과연 필요한가도 고려해볼 수 있습니다. 만약 PCA 상으로 batch effect가 거의 보이지 않는 경우에는 특히 더 말이죠.
또한, batch effect의 유무와 수정한 결과를 평가하는 툴들도 개발되어 있습니다. 분석 파이프라인이 복잡해지긴 하지만, 이러한 툴들은 batch effect 제거가 필요한 경우에는 돌려보는 것이 좋죠. 이러한 툴에는, Buttner et al. (2019)의 kBET (Figure 5) 혹은 Korsunsky et al. (2019)의 LISI(local inverse Simpson's index) 등이 있습니다. 각각의 툴에는 장단점이 있습니다. 예를 들어 만약 자신의 데이터가 아주 다른 여러 세포 유형을 지니고 있다면, kBET보다는 LISI를 추천합니다. 반면에 LISI는 batch 들이 서로 다른 크기일 때는 결과가 좋지 않습니다.
Closing 마치며
결과적으로, 어떤 것이 제거되어야 할 노이즈이고, 어떤 것이 생물학적으로 흥미로운 결과인지는 연구자들이 살펴보려는 질문에 달려 있습니다. 예를 들어서, 같은 질병을 가진 남성과 여성으로 이루어진 연구는 종종 성별에 따른 클러스터링이 나오게 됩니다. 이러한 경우, 연구자들은 성별을 batch effect로 간주하고 성별을 제외한 시그널을 관찰해 볼 수 있습니다. 하지만 역시 성별과 병의 유무를 함께 보는 것도 도움이 되겠죠. 이러한 것들을 잘 파악하여 올바른 결과를 도출하기 바랍니다.
이 글은 #메니에르병 치료 방법 중 하나인 #내림프낭감압술 에 관하여 최근 논문을 정리해 본 글입니다. 이 포스트는 비정기적으로 업데이트 될 수 있습니다.
내림프낭 감압술 (endolymphatic sac surgery)는 다양한 수술 방법을 이용하여서 내림프낭의 압력을 낮추고 막혀있는 부분을 제거하는 것입니다. 기존의 약물 치료 등의 비 침습적인 방법이 효과가 없을 경우 사용하는 방법으로, 특히 청력 저하와 관련된 부작용을 주의하여야합니다. 하지만 젠타마이신 주사나 내이 제거 등의 수술 방법에 비해서는 청력을 대부분 보전할 수 있어서 널리 쓰이는 방법이기도 합니다.
기록된 최초의 내림프낭 감압술은 1927년에 프랑스의 외과의사인 Georges Portmann에 의해 발표되었습니다. 아직 메니에르병에 관한 지식이 없을 때였지만, 그는 메니에르 환자의 내림프낭에 작은 상처를 내어 내림프압을 감소시키는 방법을 썼습니다. 10여년 후인 1938년에는 영국의 Hallpike와 Cairns가 메니에르 환자의 시신을 해부하여 메니에르병과 내림프낭 압력 사이의 직접적인 관계를 밝혀내어, Portmann의 접근 방법이 옳았다는 것을 뒷받침할 수 있었습니다. 1976년에는 미국에서 Paparella와 Goycoolea가 76명의 메니에르 환자에게 감압수술을 하여서 좋은 결과를 거두었고, 그것을 학계에 발표하였습니다. 94%의 환자가 어지럼증에서 개선된 증상을 보였고, 30%의 환자는 청력이 수술 전보다 더 나아지기도 했습니다. 이것을 계기로 내림프낭 감압술은 크게 유행하게 되었고, 여러가지 방법이 나오게 되었습니다.
Paparella와 Goycoolea의 수술 방법을 나타낸 도식
하지만 1981년에 덴마크에서 행해진 임상시험에서는 30명의 환자를 두 그룹으로 나누어 반은 내림프낭에 구멍을 뚫는 감압술(Endolymphatic sac decompression)을 시행하고, 나머지 반은 감압과는 관계없이 내림프낭의 돌기를 제거하는 수술(mastoid shunt)을 했는데, 놀랍게도 실제 수술을 받은 환자들과 가짜 수술을 받은 환자들 모두 어지럼증, 이명 등의 증상에서 큰 호전을 보였습니다. 이 결과를 토대로 그들은 수술 자체의 효용성에 대하여 의문을 던지기 시작했습니다. 3년 후에 같은 환자들을 추적 관찰 하였는데, 여전히 수술 받은 환자와 플라시보 환자 사이에서 증상 호전에 차이는 없었습니다.
이후, 1986년에 메니에르병과 면역체계와의 밀접한 가능성을 런던의 Gerald Brookes가 발표하여 학계는 면역계의 개선을 목표로 메니에르병 치료를 집중하기 시작하여, 수술적인 방법인 내림프낭 감압술은 인기가 감소하기 시작했습니다. 대신, 면역과 관련한 치료가 유행합니다. 1997년에 이비인후과 의사인 John J. Shea Jr.는 캘리포니아에서 열린 미국 귀전문의 연례 학회에서 알레르기 치료약인 덱사메사손(Dexamethason)과 항생제인 스트렙토마이신(Streptomycin)을 고막 안에 주입하여 그 중 63%의 환자에서 2년 내에 어지럼증이 완전히 사라졌다고 발표하였습니다. 2001년 터키의 그룹에서도 덱사메사손을 고막 주사하여 42%의 환자에서 어지럼증이 완전히 사라졌고, 16%의 환자는 청력이 현저히 개선되었다고 발표하였습니다. 2008년 일본에서는 메니에르 환자에게 대용량의 스테로이드를 고막 주사하여 그 경과를 관찰하였고, 수술적인 방법보다 더 장기적이고 효율적인 효과가 나타난다고 주장했습니다.
비교적 최근인 2015년 캐나다의 Issam Saliba는 획기적인 수술방법을 개발하여 발표하였습니다. 내림프낭을 깍아내거나 잘라버리는 기존의 수술 방법과는 다르게, 내림프낭의 림프 구멍을 작은 티타늄 조각으로 막아서 림프의 유입을 막아버리는 것입니다. 수술 결과, 청력의 변화는 없었지만 96.5%의 환자가 어지럼증의 완치를 보였다고 Saliba는 보고 했습니다. 1년 후에 행해진 추적 결과에서는 이 최신 수술 환자의 89.9%가 어지럼 어택이 완전히 사라졌다고 발표하였습니다.
내림프낭에 삽입된 티타늄 조각
내림프 감압술에 관련한 수술과 그 방법은 계속 발전하고 있지만, 여전히 그 효용성에 대한 논란이 있습니다. 한 논문에서는 그 이유 중 하나가 각각 환자의 내림프낭의 형태와 크기 및 위치가 너무 다양하여서, 내림프낭에 관한 정확하고 적절한 감압이나 절개가 이뤄지지 않고 있다고 발표하였습니다.
아래부터는 각각의 수술 경과 보고 논문을 정리해 보겠습니다.
2020년 이란의 한 그룹에서 43명의 환자에게 감압술을 시행하고 1년 간 관찰하였습니다. 결과는 아래의 도표에 나와 있습니다.
Vertigo: 어지럼증, THI: Tinnitus Handicap Index, 이명, PTA: Pure Tone Average, 청력
2019년 일본에서 감압술 수술 후 2년간 추적 검사를 한 결과를 발표하였습니다. 21명의 환자를 MRI로 2년간 관찰한 결과, 어지럼증 어택의 빈도는 수술 직 후 현저히 줄었지만, 정작 내림프낭의 압력에는 변화가 없었습니다. 청력도 또한 감소하지도 개선되지도 않았습니다.
2020년 독일 의료진이 내림프낭 감압술을 시행한 72명의 환자를 관찰한 결과를 발표했습니다. 전체 환자 중 65%가 어지럼증 증상의 개선을 보였습니다. 18명의 환자는 수술 후에도 여전히 고막 주사 및 스테로이드 처방을 받고 있었습니다. 그리고 9명은 감압술 이후에도 젠타마이신 혹은 미로절제술(labyrinthectomy) 등의 수술적 처방을 받았습니다. 전체 72명 중 57명에게 청력검사과 칼로릭 테스트를 하였는데, 유의미한 변화는 없었습니다. 72명 중 21명의 환자는 와우이식 수술을 하였습니다.