Coffee Chat Brewing AI Knowledge

eng kor

[LearnMRI] MRI 촬영 원리와 특징

MRI와 MRI modalities, MRI에서 관찰 가능한 Alzheimer’s disease 관련 feature를 정리해봅니다.

Magnetic Resonance Imaging (MRI)

자석으로 구성된 장치에서 인체에 고주파를 쏘아 신체부위에 있는 수소원자핵을 공명시켜 각 조직에서 나오는 신호의 차이를 디지털 정보로 변환한 이미지


MRI 촬영 원리

인체 조직은 물을 많이 포함하고 있다. 물의 수소원자핵(hydrogen nucleus)은 자성을 갖는다. 이 수소원자핵에 고주파를 발사하면 이를 공명시킬 수 있다. 고주파(radiofrequency; RF)를 순간적으로 발사하고 끊으면(RF pulse), 원자핵이 고주파 신호를 흡수했다가 방출한다(release). 여기서 MR 기기로 되돌아오는 신호의 크기 차이를 분석하고 극대화하여 2차원 영상으로 표현한 것이 MRI이다.

방출되는 신호의 크기와 파형은 물분자의 농도, 혈류, 주변 화학구조물과의 결합 상태 등에 따라 다르다. 조직 내 물이나 혈액 구성에 따라 T1 이완 시간(relaxation time)과 T2 이완 시간이 달라진다. 질병에 따라 이들 구성이 달라지므로, 질병에 따라 얻을 수 있는 신호가 다르다는 의미가 된다. 이 신호 변화를 달리 포착하여 T1 강조 영상(weighted image; WI), T2WI, FLAIR 등 다양한 MRI를 얻을 수 있다.

T1 relaxation time과 T2 relaxation time은 양성자(proton)에 RF pulse를 90도로 가한 후에 각각 다른 기준에 의해 측정된다. proton의 자기화를 종축($Mz$)에서 횡축으로 눕히면 $Mxy$ vector가 형성된다. $Mz$ vector가 0%, $Mxy$ vector가 100%가 되는 순간부터 T1, T2 relaxation time을 측정한다. 조직마다 두 relaxation time 모두 상이하게 나타난다.

T1 relaxation time은 $Mz$가 63%까지 회복하는 데에 걸리는 시간이다. 지방(fat) - 뇌세포 조직(brain tissue) - 뇌척수액(cerebrospinal fluid; CSF) 순으로 회복이 빠르다(T1 relaxation time이 빠르다).

T2 relaxation time은 $Mxy$가 37%까지 감소하는 데에 걸리는 시간으로, 자장의 세기에 별로 영향을 받지 않는다. Fat - brain tissue - CSF 순으로 신호가 빨리 감소한다.

T1 relaxation time이 짧은 조직은 T2 curve도 급격히 감소한다. 물과 지방은 T1과 T2에서 반대의 intensity를 갖는다 (opposite signal intensity).

Spin echo는 RF pulse를 90도와 180도로 주어 repetition time (TR)과 echo time (TE)을 조작하며 영상을 찍는 기법이다. TR은 90도 pulse에서 다음 90도 pulse까지의 시간, TE은 90도 pulse에서 신호를 얻을 때까지의 시간을 말한다. 영상 촬영 시 pulse를 여러 번 반복하므로, TR과 TE를 조작하여 다양한 영상을 얻을 수 있다.


MRI의 장단점

장점

  • CT에 비해 연부 조직의 contrast가 더 잘 드러난다.
  • 해부학적, 생리학적, 기능적 정보 등을 관찰할 수 있다.

단점

  • 철자성 인공허상(ferromagnetic artifacts): 자장에 영향을 주는 금속물질 등이 체내 소량이라도 존재하면 자장의 균질성이 깨져 영상이 왜곡된다.
  • 금니나 기타 삽입 물질이 있으면 영상의 질이 떨어진다.

금기: 자성에 영향을 받을 수 있는 신체 내 삽입물 등을 가진 환자에게는 사용하지 말아야 한다.

[Paper] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (NIPS 2020)

Lewis, Patrick, et al. “Retrieval-augmented generation for knowledge-intensive nlp tasks.” Advances in Neural Information Processing Systems 33 (2020): 9459-9474.

Paper Link

Points

  • Retrieval Augmented Generation (RAG) 모델은 retriever와 generator를 결합한 구조로 knowledge-intense task 수행 능력이 향상되었다.
  • RAG Variants: RAG-Sequence는 단일 문서를 사용해 output을 생성하고, RAG-Token 각 토큰을 생성하는 데 여러 문서를 통합한다.
  • RAG 모델은 open-domain QA, abstractive QA, Jeopardy question generation, and fact verification에서 baseline 모델을 능가하는 결과를 보였다.
  • RAG 모델은 non-parametric memory를 업데이트하는 간단한 방법으로 최신 자료를 쉽게 반영할 수 있는 실용적인 이점을 갖는다.


Background

  • Large pre-trained Language models (LLMs)은 자체 parameter에 사실 관련 지식을 저장하고, 이것을 지식 base로 사용한다.
  • 이러한 LLM은 자체적으로 이러한 지식을 담고 있는 메모리를 확장할 수 없고, 생성되는 output에 사실적인 통찰을 반영하거나 보장하기 어려우며, 나아가 hallucination 생성 가능성이 높다는 단점을 갖는다.
  • 최근 REALM과 ORQA 같은 hybrid 모델은 미분 가능한 retriever를 사용하여 지식을 수정하고 확장함으로서 이런 문제를 해결한다. 이것으로 특히 open-domain question answering (QA)에서 좋은 결과를 보였다.


Method

Retrieval-augmented generation (RAG)은 pre-trained generation 모델이 non-parametric memory를 사용해 보편적인 task를 수행할 수 있도록 fine-tuning 한다.

  • Parametric memory: pre-trained seq2seq transformer
  • Non-parametric memory: Wikipedia로부터 pre-trained neural retriever를 통해 얻는 dense vector index.
  • Dense passage retriever (DPR): input을 조건으로 latent document를 검색하는 retriever.
  • BART: input과 latent document를 조건으로 output을 생성하는 generator. T5 등 다른 seq2seq 모델로 대체 가능하다. Retriever와 함께 fine-tuning 된다.
  • Latent document: top-K 근사를 통해 output(시퀀스) 별 또는 토큰 별로 marginalizing 된다.
    • RAG-Sequence Model: 하나의 문서가 모든 토큰의 출처가 된다고 가정한다.
    • RAG-Token Model: 여러 문서가 한 토큰을 생성하는 데 출처가 된다고 가정한다.


Models

RAG 모델은 input 시퀀스 $x$를 사용해 text document $z$를 검색하고, 이를 target 시퀀스 $y$를 생성할 때 추가적인 문맥으로 사용한다. RAG 두 가지 구성 요소로 이루어진다:

  • Retriever $p_\eta(z\mid x)$: 쿼리인 $x$에 대한 문서들의 분포를 반환한다.
    • Truncated as top-K assumtion.
  • Generator $p_\theta(y_i\mid x,z,y_{1:i-1})$: 이전 토큰들 $y_{1:i-1}$과 현재 input $x$ 및 검색된 내용 $z$을 기반으로 현재 스텝의 토큰을 생성한다. Retriever와 Generator는 검색된 문서를 latent variable로 취급하여 end-to-end로 학습된다. latent document를 marginalize 하기 위한 방법으로 RAG-Sequence와 RAG-Token 두 가지 방법이 제안되었다.


RAG-Sequence and RAG-Token

RAG-Sequence Model: 검색된 동일한 문서를 사용해 전체 시퀀스를 생성한다.

  • 검색된 문서는 top-k seq2seq 확률 $p(y\mid x)$을 얻기 위한 단일 latent variable로 간주된다.
  • Retriever로 top-K 문서를 검색하고, Generator로 각 문서에 대해 output 시퀀스에 대한 확률을 계산한다.
\[p_{RAG-Sequence}(y\mid x)\approx \sum_{z\in top-k(p(\cdot|x))}{p_\eta(z|x)p_\theta(y_i|x,z)} \\ = \sum_{z\in top-k(p(\cdot|x))}{p_\eta(z|x)}\prod_i^N p_\theta(y_i|x,z,y_{1:i-1})\]
  • Use cases: 요약과 같은 문서의 전체적인 맥락이 중요한 작업에 적합하다.

RAG-Token Model: 각 토큰을 생성할 때 다른 latent document를 사용한다.

  • Generator는 여러 문서에서 내용을 추출하여 output을 생성한다.
  • Retriever는 top-K 문서를 검색하고 Generator는 각 문서에 대해 다음 output 토큰에 대한 분포를 계산한다.
\[p_{RAG-Token}(y|x)\approx \prod_i^N \sum_{z\in top-k(p(\cdot\mid x))}p_\eta(z\mid x)p_\theta(y_i\mid x,z_i,y_{1:i-1})\]
  • Use cases: QA와 같이 여러 자료를 출처로 상세한 정보를 통합하는 작업에 적합하다.


Retriever and Generator

Retriever $p_\mu(z\mid x)$: bi-encoder 구조를 갖는 DPR을 기반으로 한다:

\[p_\mu(z|x)\propto \exp(\bf d \rm (z)^\top \bf q \rm (x)) \\ \bf d \rm (z)=\rm BERT_d(z), \ \bf q \rm (x)=\rm BERT_q(x)\]
  • $\bf d \rm (z)$: 문서에 대한 representation. $\rm BERT_{BASE}$ 기반 document encoder가 생성한다.
  • $\bf q \rm (x)$: 쿼리에 대한 representation. $\rm BERT_{BASE}$ 기반 query encoder가 생성한다.
  • Maximum inner product search (MIPS): top-k $p_\eta(\cdot\mid x)$를 sub-linear에 근접한 시간 내 계산하는 방법
  • Non-parametric memory: 문서의 인덱스. Retriever는 TriviaQA의 질문과 Natural Questions에 대해 답하는 데 필요한 문서를 검색하도록 학습된다.

Generator $p_\theta(y_i\mid x,z,y_{1:i-1})$: 이 연구에서는 BART를 기반으로 하나, 어떤 encoder-decoder 모델로도 대체될 수 있다.

  • $\rm BART_{large}$: 400M 파라미터를 갖는 pre-trained seq2seq transformer. 다양한 noising function과 denoising objective로 pre-training 되었다.
  • Input $x$와 검색된 문서 $z$를 concatenate 하여 $\rm BART$ 모델에 입력하고 output을 생성한다.
  • Parametric memory: $\rm BART$ generator의 파라미터 $\theta$.


Training

Retriever와 generator는 어떤 문서를 검색해야 하는지에 대한 정답 없이 학습된다.

  • Objective: input/output 쌍 $(x_j, y_j)$의 negative marginal log-likelihood 최소화, $\sum_j-\log(p(y_j\mid x_j))$.
    • Adam optimizer 사용.
  • Query encoder $\rm BERT_q$와 generator $\rm BART$만 finetune 한다.
    • Document encoder $\rm BERT_d$ 업데이트는 비용이 많이 들고 비효율적이다.
      • Document index를 주기적으로 업데이트해야 한다.
      • 성능 향상에 그다지 유의미하지 않다.


Decoding

테스트 시, RAG-Sequence와 RAG-Token은 $\arg \max_y{p(y\mid x)}$를 근사하기 위한 서로 다른 방법을 필요로 한다.

RAG-Sequence model: 각 문서 $z$에 대해 beam search를 사용한다. $p(y\mid x)$은 기존 보편적인 토큰별 확률로 분해할 수 없어 단일 beam search로 구할 수 없다.

  • 각 $z$의 hypothesis는 $p_\theta(y_i\mid x,z,y_{1:i-1})$로 점수가 매겨진다.
  • hypothesis 집합 $Y$에 포함된 일부 $y$는 모든 문서의 beam에서 나타나지 않을 수 있다.
  • Thorough Decoding: $y$의 확률을 추정하기 위해, $y$가 beam에 나타나지 않는 $z$ 각각에 대해 추가적으로 forward pass를 진행하고, generator의 확률을 $p_\eta(z\mid x)$와 곱한 뒤, beam의 확률을 더한다.
  • Fast Decoding: 후보 집합 $Y$가 생성되었을 때, forward pass를 방지하기 위해 $p_\theta(y\mid x,z_i) \approx 0$로 근사해 효율적으로 decoding을 수행한다. 이 방법은 $x, z_i$에서 beam search를 했을 때 $y$가 생성되지 않은 경우 유효하다.
  • 긴 output 시퀀스를 생성하는 경우, $\left\vert Y \right\vert$가 여러 forward pass를 수행하며 커질 수 있다.

RAG-Token model: transition 확률을 갖는 기본적인 autoregressive seq2seq generator와 같은 방식으로 작동한다:

\[p'_\theta(y_i\mid x,y_{1,i-1})=\sum_{z\in top-k(p(\cdot \mid x))}p_\eta(z_i \mid x)p_\theta(y_i\mid x,z_i,y_{1:i-1})\]


Experiments

RAG 모델이 knowledge-intensive NLP task에서 효과적인지에 대한 성능을 평가하기 위해 다양한 task를 설정했다. 모델 관련 setting 사항은 다음과 같다:

  • Wikipedia December 2018 dump를 non-parametric knwoledge source로 사용했다.
  • Wikipedia 문서를 100 단어씩 한 chunk로 나누어 총 2,100만 개 문서로 구성했다.
  • Document encoder $\rm BERT_d$로 각 문서에 대한 임베딩을 구하고, 빠른 검색을 위해 Hierarchical Navigable Small World approximation을 사용해 단일 MIPS 인덱스를 구축했다.
  • 각 쿼리에 대해 top $k$개의 문서를 검색할 때, $k\in {5,10}$로 설정하여 학습과 테스트 시 반영했다.

Tasks

  1. Open-domain Question Answering (QA): 중요한 real-world application이자 보편적인 knowledge-intensive task이다.
    • 텍스트 쌍 $(x,y)$는 질문과 답변에 매칭된다.
    • RAG는 답변 생성 시 negative log-likelihood를 최소화하도록 학습된다.
    • Close-book QA를 통한 비교도 진행: 검색 없이 오로지 모델에 내제된 parametric knowledge로 시퀀스를 생성한다.
    • Datasets: Natural Questions, TriviaQA, WebQuestions, CuratedTREC
  2. Abstractrive Question Answering: 자유 형식이나 추상적인 경우에서의 natural language generation (NLG) 성능을 테스트한다.
    • MSMARCO NLG Task v2.1 사용: 원래 존재하는 gold passage는 배제하고, 질문과 답변만 사용하여 open-domain abstractive QA task를 구성했다.
  3. Jeopardy Question Generation: QA 상황이 아닌 경우의 생성 능력을 평가한다.
    • Jeopardy: 특정 entity에 대한 사실을 보고 entity를 추측하는 것.
      • 예를 들어, “1986년 멕시코는 이 국제 스포츠 대회를 두 번 개최한 첫 번째 국가로 기록되었다.”라는 사실을 보고, 이 사실에 해당하는 entity인 “월드컵”을 추측해야 한다.
    • 정확하고 사실적인 성격이 강한 task로, 답변인 entity를 조건으로 하여 생성하는 부분이 까다로운 knowledge-intensive task이다.
  4. Fact Verification (FEVER): 고난이도의 함의 추론과 결합된 검색 문제이다.
    • 텍스트가 Wikipedia에 따라 맞는 내용인지, 틀렸는지, 또는 판단할 충분한 정보가 없는지를 분류해야 한다.
    • 모델의 생성 능력이 아닌 분류 능력을 테스트하기에 적절하다.
    • Two varients: 3-way classification (supports/refutes/not enough)과 2-way (support/refutes).


Results

RAG 모델은 여러 task에서 baseline 모델 이상의 성능을 보였다.

Open-Domain QA

  • RAG 모델은 baseline을 크게 능가하는 점수를 기록했다.
  • 특히 RAG-Token 모델은 여러 문서의 세세한 정보를 통합하는 능력에 의해 우수한 성능을 보였다.


Abstractive Question Answering

  • 다수의 질문이 gold passage 없이 대답할 수 없었음에도 불구하고 RAG 모델이 SOTA 성능을 달성했다.
  • RAG 모델은 BART에 비해 hallucination을 적게 일으켰고 사실적으로 정확하면서도 다양한 텍스트를 생성했다 (Table 3).


Jeopardy Question Generation

  • 두 RAG model 모두 Q-BLEU-1에서 BART를 능가했다 (Table 2).
  • Human evaluator는 RAG가 생성한 결과가 42.7%의 경우에서 더 사실적이라고 평가해, SOTA인 generation 모델보다 더 나은 생성 능력을 입증했다 (Table 4).
  • RAG-Token 모델이 RAG-Sequence 모델보다 성능이 더 좋게 나타났는데, 여러 문서의 내용을 효과적으로 결합하기 때문인 것으로 생각된다 (Fig 2).


Fact Verification

  • 3-way classification에서 RAG는 특정 도메인에 대한 중간 검색에 대해 지도학습된 SOTA 모델 점수의 4.3% 범위 내의 점수를 기록했다.
  • 2-way classification에서는 gold evidence를 기반으로 true/false classification을 학습한 SotA 모델과 비교해 2.7% 이내의 성능을 달성했다.
  • RAG가 검색한 문서는 FEVER의 gold evidence와 상당 부분 겹쳤다.


Additional Results

  1. Generation Diversity: 서로 다른 모델이 생성한 ngram의 비율을 계산하여 output의 다양성을 조사한 결과, RAG 모델이 BART보다 더 다양한 output을 생성했다. RAG-Token보다는 RAG-Sequence의 output이 더 다양했다 (Table 5).

  2. Retrieval Ablations: 학습 중 retriever를 freeze했을 때 원래 방식의 RAG 모델에 비해 성능이 하락했다. Retriever를 BM25로 대체하여 비교했을 때도 학습된 retriever의 성능이 더 높은 것을 볼 수 있었다 (table 6).

  3. Index hot-swapping: December 2016 Wikipedia dump의 인덱스를 사용하여 non-parametric memory의 이점을 입증했다. RAG 모델은 인덱스가 바뀌었음에도 질문의 70%를 맞게 대답했다. 이로서 non-parametric memory를 단순히 교체하여 knowledge를 업데이트할 수 있음을 알 수 있다.

  4. Effect of Retrieving more documents: 테스트 시 검색될 문서의 수 $k$를 조정한 결과, task에 따라서 특정 개수까지의, 혹은 많은 문서를 검색할수록 성능이 향상되는 것을 볼 수 있다 (fig 3).


[Paper] Self-Supervised Transformer for Sparse and Irregularly Sampled Multivariate Clinical Time-Series (ACM 2022)

Tipirneni, Sindhu, and Chandan K. Reddy. “Self-supervised transformer for sparse and irregularly sampled multivariate clinical time-series.” ACM Transactions on Knowledge Discovery from Data (TKDD) 16.6 (2022): 1-17.

Paper Link

Points

Self-supervised Transformer for Time-Series (STraTS) model

  • Using observation triplets as time-series components: avoids the problems faced by aggregation and imputation methods for sparse and sporadic multivariate time-series

  • Continuous Value Embedding: encodes continuous time and variable values without the need for discretization

  • Transformer-based model: learns contextual triplet embeddings

  • Time series forecasting as a proxy task: leverages unlabeled data to learn better generalized representations

Background

Problems

  • Multivariate time-series data are frequently observed in critical care settings and are typically characterized by sparsity (missing information) and irregular time intervals.
  • Existing approaches, such as aggregation or imputation of values, suppress the fine-grained information and add undesirable noise/overhead into the model.
  • The problem of limited availability of labeled data is easily observed in healthcare applications.

The clinical domain portrays a unique set of challenges:

  • Missingness and Sparsity: Not all the variables are observed for every patient. Also, the time-series matrices are very sparse.
  • Irregular time intervals and Sporadicity: Not all clinical variables are measured at regular time intervals. The measurements may occur sporadically in time depending.
  • Limited labeled data: expensive and even more limited for specific tasks.

Existing methods

  • Aggregation: could suppress important fine-grained information
  • Imputation/Interpolation: not reasonable as not considering the domain knowledge about each variable

Method

Self-supervised Transformer for Time-Series (STraTS)

Embeddings

Triplet Emgeddings = Feature embedding + Value embedding + Time embedding \(T=\{(t_i, j_i, u_i)\}^n_{i=1}\\ e_i=e_i^f+e_i^v+e_i^t\) Continuous Value Embedding (CVE)

For continuous values of feature values and times

A one-to-many Feed-Forward Network \(FFN(x) = U tanh(Wx+b)\)

  • Feature embeddings $e_i^f$: obtained from a simpole lookup table

  • Value embeddings $e_i^v$ and Time embeddings$e_i^t$: through CVE

Demographics Embedding

the prediction models performed better when demographics were processed separately. \(e^𝑑 = 𝑡𝑎𝑛ℎ(W^𝑑_2𝑡𝑎𝑛ℎ(W^𝑑_1d + b^𝑑_1) + b^𝑑_2) ∈ R^d\) where the hidden layer has a dimension of 2d

Self-Supervision

Pre-training Tasks: Both masking and forecasting as pretext tasks for providing self-supervision

The forecasitng improved the results on target tasks

The loss is: \(L_{ss}=\frac{1}{|N'|}\sum_{k=1}^{N'}\sum_{j=1}^{|F|}m_j^k\Big(\tilde{z}_j^k-z_j^k\Big)^2\)

Interpretability

I-STraTS: an interpretable version of STraTS

  • The output can be expressed using a linear combination of components that are derived from individual features

Differences with STraTS

  • Combine the initial triplet embeddings in Fusion Self-attention module
  • Directly use the raw demographics vector as the demographics embedding
\[\tilde{y}=sigmoid\Big(\sum_{j=1}^{D}{\bold{w}_0[j]d[j]+\sum_{i=1}^{n}\sum_{j=1}^{d}\alpha_i\bold{w}_o[j+D]\bold{e}_i[j]+b_o}\Big)\]

Experiments

Target Task: Prediction of in-hospital mortality

Datasets: 2 EHR datasets; MIMIC-III and PhysioNet Challenge 2012

  • MIMIC-III: 46,000 patients
  • PhysioNet-2012: 11,988 patients

Baselines: Gated Recurrent Unit (GRU), Temporal Convolutional Network (TCN), Simply Attend and DIagnose (SaND), GRU with trainable Decays (GRU-D), Interpolation-prediction Network (InterpNet), Set Functions for Time Series (SeFT)

  • Used 2 dense layers for demographics encoding
  • Concatenated it to the time-series representation before the last dense layer

Metrics

  • ROC-AUC: Area under ROC curve
  • PR-AUC: Area under precision-recall curve
  • min(Re, Pr): the max of ‘min of recall and precision’ across all thresholds

Prediction Performance

  • Trained each model using 10 different random samplings of 50% labeled data from the train and validation sets
  • STraTS uses the entire labeled data and additional unlabeled data if avaliable
  • STraTS achieves the best performance
  • GRU showed better performance than interpolation-based models (GRU-D, InterpNet) on the MIMIC-III dataset, which was not expected

Generalizability test of models

Lower propotions of labeled data can be observed in real-world when there are several right-censord samples.

  • STraTS has an advantage compared to others in scarce labeled data settings, which can be attributed to self-supervision

Ablation Study

Compared STraTS and I-STraTS with and without self-supervision: ‘ss+’ and ‘ss-‘ indicate each case

  • I-STraTS showed slightly worse performance as constrained its representations
  • Adding self-supervision improves performance of both models
  • I-STraTS(ss+) outperforms STraTS(ss-): self-supervision can compensate the performance which could get lower by introducing interpretability

Interpretability

How I-STraTS explains its predictions

A case study: a 85 yrs old female patient from MIMIC-III

  • expired on the 6th day after ICU admission
  • had 380 measurements corresponding to 58 time-series variables

The model predicts the probability of her in-hospital mortality as 0.94 using only the data collected the first day

  • Average contribution score: the average score along with the range, for multiple observations, or value, for only one observation
  • The top 5 variables are the most important factors in predicting she ‘s at high risk of mortality that the model observed

&rarr Can be helpful to identify high-risk patients and also understand the contributing factors and make better diagnoses, especially at the early stages of treatment

[Study] 알츠하이머 치매의 ATN 바이오마커 간 관계 정리

AI 전공자의 알츠하이머 치매 관련 Brain Imaging 논문 스터디

Amyloid Beta(A), Tau(T), Neurodegeneration(N)과 관련된 Alzheimer’s Disease(AD) 기전에 대해 이해하기 위하여 다음의 논문들을 읽고 정리한 내용입니다. 기반 지식이 없어 시각 자료와 사전을 찾아가며 읽었습니다. pdf는 찾아본 이미지와 필기한 내용이 담긴 논문 파일입니다.

Ittner, Lars M., and Jürgen Götz. “Amyloid-β and tau—a toxic pas de deux in Alzheimer’s disease.” Nature Reviews Neuroscience 12.2 (2011): 67-72. link pdf

Vogel, Jacob W., et al. “Four distinct trajectories of tau deposition identified in Alzheimer’s disease.” Nature medicine 27.5 (2021): 871-881. link pdf

Lee, Wha Jin, et al. “Regional Aβ-tau interactions promote onset and acceleration of Alzheimer’s disease tau spreading.” Neuron110.12 (2022): 1932-1943. link pdf


Amyloid Beta(A)는 뉴런에 의해 생성되는 Amyloid Precursor Protein(APP)이 프로테아제에 의해 4부분으로 나눠질 때 생기는 펩타이드 중 하나로,

뉴런 근처에 존재하여 기능 장애를 야기하는 것으로 알려졌다. A의 침착은 Alzheimer’s Disease(AD) 발병 10-20년 전부터 이뤄진다.

  • A는 dimers, oligomers, fibrils 등에 이어 plaque를 형성한다. A가 어느 형태에서 toxicity를 갖기 시작하는지는 확실하지 않다. 항 아밀로이드 치매 치료제는 이 plaque의 감소와 증식 및 생성 방지를 목적으로 한다.

  • A의 toxicity는 postsynaptic compartment, 즉 dendrite(somatodendritic region)를 주 대상으로 하여 작용하고, 특정 수용체의 속성에 따라 세포막을 통해 간접적으로 뉴런에 영향을 끼칠 수 있다. 대표적인 특정 수용체로 NMDAR이 있다.

Tau(T)는 신경 세포에서 microtubule과 결합하는 단백질로, 주로 axon에 존재하여 microtubule의 안정화 및 axonal transition을 조절하는 역할을 한다.

정상 상태의 뉴런의 dendrite에도 소량 존재한다.

T는 A에 의해 과인산화되고(hyperphosphorylated Tau), 과인산화된 T는 Neurofibrillary Tangle(NFT)를 형성한다.

  • T의 과인산화는 microtubule 형성을 방해하여 뉴런의 기능을 방해한다.
  • NFT는 Somatodendritic region에서 많이 관찰된다. T의 level이 높아지면 T가 dendrite에서 많이 관찰된다.

Dendrite에서 T는 그곳에 위치한 여러 단백질과 상호작용하여 결과적으로 뉴런이 A의 toxicity에 약해지게 만든다.

  • T가 인산화되면 Tyrosine protein kinasen FYN과 강하게 작용한다. 과인산화된 T가 dendrite에서 증가함에 따라 FYN도 Soma에서 증가한다.
  • FYN은 NMDAR을 인산화한다. 인산화된 NMDAR은 Postsynaptic Density Protein 95(PDS95)와 상호작용한다.
  • 이것의 결과로 NMDAR의 excitotoxicity가 나타난다(흥분독성상태). 수용체의 excitotoxicity로 A의 toxicity에 뉴런이 민감해지게 된다.

결과적으로 A와 T는 뉴런을 약화시키는 데에 있어 서로 시너지를 갖는다. A는 T의 과인산화를 촉진하고, 과인산화된 T는 뉴런이 A의 toxicity에 약해지게 만든다.

이 시스템에서 A와 T는 세포의 다른 부분(각각 Complex I, Complex IV)에 악영향을 끼쳐 미토콘드리아 호흡을 방해하고, 결국 Neurodegeneration(N)을 야기한다.

따라서 A의 침착과 T의 전파는 AD의 중요한 요인이다.

T의 전파 양상은 Braak Staging System으로 체계화된 바 있다.

  • Transentorhinal cortex → medial and basal temporal lobe → neocortical associative regions → unimodal sensory and motor cortex

그런데 이 system에 부합하지 않는 전파 양상 또한 관찰되었다. T의 전파 양상을 병의 진행과 뇌 영역의 시공간적 기준으로 분류하여 4가지 subtype으로 정의할 수 있다.

  • S1 limbic (Braak system), S2 MTL, S3 posterior, S4 Lateral Temporal

침착된 A는 T의 전파에 영향을 준다.

  • A는 heteromodal association cortex에 침착되고, T의 전파는 entorhinal cortex(EC)에서 시작되어 점차 뇌 전반으로 퍼진다. ( ← Braak system; S1 type ? )
  • Remote Interation: A와 T가 같은 영역에 있지 않은 상태에서, 먼저 A가 연결된 뉴런을 통해서 EC 영역에 있는 T에 영향을 준다. A의 영향으로 T는 점차 주위 영역으로 확산된다.
  • Local Interaction: T가 A와 직접적으로 접촉되어 있는 뉴런에 전파되어 만남으로서 T의 전파가 가속화된다(acceleration). 해당 뇌 영역은 Internal Temporal Gyrus(ITG)이다 (propagation hub).
  • T 전파의 acceleration이 진행되면 뇌 전반에서 A와 T의 상호작용이 일어나게 되어 N과 AD의 악화를 막기 어렵다.

A와 T의 PET 데이터와 MRI 데이터를 병의 진행에 따라 살펴보면

  • A의 침착되는 정도는 뇌 전반에 걸쳐 점점 심해질 것이고
  • T는 뇌의 특정 부분에서 시작하여 점차 확산되는 양상으로 관찰되고
  • T의 슈퍼 전파가 관찰된 이후 MRI 상 전반적인 뇌 위축(N)의 정도가 심하게 나타날 것이다.

Recurrent Neural Networks (RNNs)

Sequence data를 분석하기 위한 딥러닝 모델 구조로, Rumelhart et al., 1986에 근간을 둔다. Deep neural networks (DNNs)와는 달리 hidden state node 간 연결을 통해 이전 시점의 정보를 현재 시점에서 사용할 수 있게 디자인되었다.

현재 시점 node인 $s_t$에 전 시점의 $s_{t-1}$ node에서 정보가 들어온다. 이 정보를 현재 시점의 입력인 $x_t$와 함께 받아 다음 node $s_{t+1}$로 전송될 값을 계산한다. 이 작업을 회귀적으로(recurrently) 진행한다.


Weight sharing

Weight $U$, $W$, $V$는 모든 시점에서 동일하다. 이것으로

  • 학습에 필요한 weight 수를 줄일 수 있다.
  • 데이터의 sequence 길이에 유연하다: 하나의 모델을 다른 길이의 sequence에 적용할 수 있다.
    • 다른 길이의 sequence에 같은 weight값을 계속 사용함으로써 next token generation이 가능하다


RNN 계산

위 그림을 보면 hidden state $s_t$와 output $o_t$의 계산은 다음과 같다.

\[\begin{align*} s_t&=\tau(Ws^{t-1})+Ux^t \\ o_t&=softmax(Vs^t) \\ \end{align*}\]

여기서 node 수가 $D$, $J$, $K$인 경우 각 변수의 차원은 아래와 같다.

\[x\in\mathbb{R}^D, s\in\mathbb{R}^J, o\in\mathbb{R}^K, U\in\mathbb{R}^{J\times D}, W\in\mathbb{R}^{J\times J}, U\in\mathbb{R}^{K\times J}\]


Long-term dependency problem

hidden state 연산은 다음과 같이 표현할 수 있다.

\[s^t=\tau(Ux^t+W\tau(Ux^{t-1}+Ws^{t-2}))\]

$s$가 tanh activation function 내에서 중첩되는 것을 볼 수 있다. 이렇게 되면

  1. feed forward 시 앞 단에서 입력된 정보가 점점 소실된다: tanh의 output은 $\tau(\cdot)\in(-1,1)$인데, 즉 tanh 연산의 중첩은 1보다 작은 값을 계속해서 곱하는 것과 같다. 이렇게 되면 앞에서 곱해진 값은 점점 작아진다.
  2. back-propagation 시 기울기 소실(gradient vanishing) 혹은 폭발(explosion)의 문제가 생길 수 있다: tanh 함수에 의해 기울기가 0에 가깝게 되거나 너무 커지는 경우가 생긴다. 작은 gradient는 더 작아지고, 큰 gradient는 더 커진다.

*Gradient vanishing: back-propagation 시 반영되는 gradient 값이 layer를 지날 수록 소실되는 문제

*Gradient explosion: gradient가 실제 값보다 증폭되어 loss 계산 시 정답과의 차이가 너무 커져, 업데이트에 과도하게 반영되는 문제


다양한 RNN 구조

입출력 형태에 따라 다양하게 RNN을 구성할 수 있다.

  • One-to-One: hidden state가 1개인 모형, 기본적인 Neural network 구조
  • One-to-Many: 하나의 입력값을 받아 순차적으로 여러 개의 값(한 sequence)을 생성
  • Many-to-One: 한 sequence를 입력 받아 마지막에 하나의 값을 생성
    • e.g. sentence classification
  • Many-to-Many: 한 sequence를 입력 받아 latent represenation을 구한 후 이것을 통해 sequence를 출력
    • e.g. machine translation
  • Many-to-Many: 한 sequence의 매 token을 입력 받는대로 대응하는 token을 출력하여 한 seqeunce를 생성