ML / AI / LLM
수학 표기 학습 노트
A reference for notations from supervised learning to Transformers — written from a non-expert perspective.
머신러닝 논문과 강의에서 마주치는 수학 표기는 분야별로 약속(convention)이 다르다. 그러나 핵심 표기는 80% 이상 공통되며, 이 공통 규약만 익혀두면 새로운 자료를 읽을 때 진입 장벽이 크게 낮아진다. 본 노트는 강의 슬라이드의 기본 notation을 출발점으로 삼아, 지도학습부터 LLM/Transformer까지 자주 등장하는 표기를 카테고리별로 정리한다. 각 섹션은 표기 → 의미 → 의료 ML 맥락에서의 예시 순으로 구성된다.
§ 01데이터·관측치 표기
머신러닝의 기본 단위는 입력 벡터와 정답(label)이다. 한 환자의 검사 결과들($x_1$=WBC, $x_2$=CRP, $x_3$=PCT 등)을 모아놓은 것이 입력 $x$이고, 그 환자의 진단명이 $y$다.
| 표기 | 의미 |
|---|---|
| $x = (x_0, x_1, \ldots, x_n)$ | 입력 벡터 (input) |
| $y$ | 정답(label) |
| $n$ | 특성변수(feature)의 개수 |
| $m$ | 샘플 수 (sample size, batch size) |
| $x_i$ | $i$번째 특성변수 (예: $x_1$ = WBC, $x_2$ = CRP) |
| $(x^{(j)}, y^{(j)})$ | $j$번째 관측치 |
| $\{(x^{(j)}, y^{(j)})\}_{j=1}^{m}$ | 데이터셋 / 배치 |
| $X \in \mathbb{R}^{m \times n}$ | 데이터 행렬 (행=샘플, 열=feature) |
| $Y \in \mathbb{R}^{m \times 1}$ | 레이블 벡터 |
위첨자 $(j)$는 샘플 인덱스, 아래첨자 $i$는 feature 인덱스다. 두 인덱스가 동시에 등장하는 $x_i^{(j)}$는 $j$번째 환자의 $i$번째 검사 항목 값이라는 뜻이다. 길이 $n$의 벡터는 통상 $(1, n)$ row vector로 취급한다.
편향(bias) 처리: $x_0 = 1$, $w_0 = b$로 두면 절편을 가중치 안에 흡수해 $w^\top x$ 한 번의 내적으로 선형 모델 전체를 표현 가능하다.
§ 02모델·예측 표기
| 표기 | 의미 |
|---|---|
| $h_w(x)$ 또는 $h(x)$ | 가설 함수 (hypothesis function) |
| $w = (w_0, w_1, \ldots, w_n)$ | 파라미터(가중치) 벡터 |
| $W_{(1,n)}$ 또는 $W$ | 가중치 행렬 |
| $\hat{y} = h_{\hat{w}}(x)$ | 예측치 (모자 = 추정값) |
| $\epsilon = y - \hat{y}$ | 모델 오차(잔차) |
| $\hat{\theta}$ | 일반적 파라미터의 추정값 |
통계학에서 $\hat{\beta}$가 회귀계수의 추정값을 의미하듯, 머신러닝에서도 모자(hat) 기호는 항상 데이터로부터 학습된 추정값을 뜻한다. $w$(이상적 참값)와 $\hat{w}$(학습된 값)는 개념적으로 구분된다.
§ 03손실·비용 함수
손실(Loss)은 단일 샘플의 오차, 비용(Cost)은 전체 데이터셋의 평균 손실이다. 두 용어는 자주 혼용되지만 엄밀히는 위계가 다르다.
| 표기 | 의미 |
|---|---|
| $L(y, \hat{y})$ | 단일 샘플의 손실 함수 |
| $J(w)$ | 전체 데이터셋의 비용 함수 |
| $J(w) = \frac{1}{m}\sum_{j=1}^{m} L(y^{(j)}, \hat{y}^{(j)})$ | 경험적 위험 (empirical risk) |
| $\hat{w} = \arg\min_w J(w)$ | 최적 파라미터 |
대표적 손실 함수
- MSE (회귀): $L = (y - \hat{y})^2$
- 이진 cross-entropy (분류): $L = -[y\log\hat{y} + (1-y)\log(1-\hat{y})]$
- 다중 분류 cross-entropy: $L = -\sum_{k=1}^{K} y_k \log \hat{y}_k$
의료 진단 모델(예: 패혈증 vs 비패혈증)에서는 거의 항상 binary cross-entropy가 쓰인다.
§ 04선형대수 표기
머신러닝 수식의 절반은 행렬 연산이다. 진단검사 결과 벡터를 다루는 감각과 직결된다.
| 표기 | 의미 |
|---|---|
| $x^\top$ 또는 $x^T$ | 전치 (transpose) |
| $w^\top x = \sum_i w_i x_i$ | 내적 (dot product) |
| $\|w\|_2 = \sqrt{\sum w_i^2}$ | L2 노름 (유클리드) |
| $\|w\|_1 = \sum |w_i|$ | L1 노름 (LASSO 정규화) |
| $I$, $I_n$ | 항등 행렬 |
| $A^{-1}$ | 역행렬 |
| $\det(A)$ | 행렬식 |
| $\text{tr}(A)$ | 대각합 (trace) |
| $a \odot b$ | 요소별 (Hadamard) 곱 |
| $Av = \lambda v$ | 고윳값·고유벡터 (PCA의 기반) |
| $W \in \mathbb{R}^{m \times n}$ | $m \times n$ 실수 행렬 |
§ 05확률·통계 표기
| 표기 | 의미 |
|---|---|
| $P(A)$ | 사건 $A$의 확률 |
| $P(y \mid x)$ | 조건부 확률 (입력 $x$가 주어졌을 때 $y$일 확률) |
| $\mathbb{E}[X]$, $E[X]$ | 기댓값 |
| $\text{Var}(X) = \sigma^2$ | 분산 |
| $\sigma$ | 표준편차 |
| $x \sim \mathcal{N}(\mu, \sigma^2)$ | 정규분포에서 샘플링 |
| $x \sim p(x)$ | 분포 $p$를 따른다 |
| i.i.d. | 독립 동일 분포 |
| $\hat{\theta}_{\text{MLE}} = \arg\max_\theta P(\mathcal{D}\mid\theta)$ | 최대우도추정 |
| $P(\theta\mid\mathcal{D}) \propto P(\mathcal{D}\mid\theta)\,P(\theta)$ | 베이즈 정리 |
머신러닝에서 모델 학습은 본질적으로 우도(likelihood)를 최대화하거나 사후확률을 추정하는 통계적 추론 과정이다. 통계 배경이 큰 자산이 되는 영역이다.
§ 06미적분·최적화 표기
| 표기 | 의미 |
|---|---|
| $\frac{\partial J}{\partial w_i}$ | $w_i$에 대한 편미분 |
| $\nabla_w J$ | 그래디언트 (모든 편미분의 벡터) |
| $\nabla^2 J$, $H$ | 헤세 (Hessian) 행렬 |
| $w \leftarrow w - \eta\, \nabla_w J$ | 경사 하강법 갱신 규칙 |
| $\eta$ 또는 $\alpha$ | 학습률 (learning rate) |
| $\arg\min_w f(w)$ | $f$를 최소화하는 $w$값 |
| $\arg\max_w f(w)$ | $f$를 최대화하는 $w$값 |
| $\frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial w}$ | 체인 룰 (역전파의 기반) |
§ 07신경망·딥러닝 표기
신경망에서는 층(layer) 인덱스가 추가되어 표기가 한 층 더 복잡해진다. 핵심은 대괄호 위첨자 $[l]$은 층, 소괄호 위첨자 $(j)$는 샘플이라는 점이다.
| 표기 | 의미 |
|---|---|
| $W^{[l]}$ | $l$번째 층의 가중치 행렬 |
| $b^{[l]}$ | $l$번째 층의 편향 |
| $a^{[l]}$ | $l$번째 층의 활성화 출력 |
| $z^{[l]} = W^{[l]} a^{[l-1]} + b^{[l]}$ | 선형 변환 (pre-activation) |
| $a^{[l]} = g(z^{[l]})$ | 활성화 함수 적용 |
| $\sigma(z) = \frac{1}{1+e^{-z}}$ | 시그모이드 |
| $\text{ReLU}(z) = \max(0, z)$ | ReLU |
| $\tanh(z)$ | 하이퍼볼릭 탄젠트 |
| $\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$ | 소프트맥스 (다중 분류) |
§ 08평가 지표 표기 — 의학과 직결
전문의에게 가장 친숙한 영역이다. ML 분야의 표기는 임상검사 정확도 평가의 그것과 본질적으로 같다.
| ML 용어 / 임상 용어 | 수식 |
|---|---|
| Accuracy / 정확도 | $\dfrac{TP+TN}{TP+FP+TN+FN}$ |
| Precision / 양성예측도 (PPV) | $\dfrac{TP}{TP+FP}$ |
| Recall / 민감도 (Sensitivity) | $\dfrac{TP}{TP+FN}$ |
| Specificity / 특이도 | $\dfrac{TN}{TN+FP}$ |
| F1 score | $2 \cdot \dfrac{P \cdot R}{P+R}$ (조화평균) |
| AUC-ROC / 진단검사 ROC 면적 | ROC 곡선 아래 면적 |
ML에서 흔히 마주치는 F1 score는 임상 통계에서는 잘 쓰이지 않지만, precision과 recall의 균형을 한 숫자로 보여주는 지표라 분류 모델 비교 시 표준이다.
§ 09정보이론 표기
| 표기 | 의미 |
|---|---|
| $H(X) = -\sum P(x)\log P(x)$ | 엔트로피 (불확실성의 척도) |
| $H(X, Y)$ | 결합 엔트로피 |
| $H(Y \mid X)$ | 조건부 엔트로피 |
| $D_{KL}(P\|Q) = \sum P(x)\log\dfrac{P(x)}{Q(x)}$ | KL divergence (분포 간 차이) |
| $H(P, Q) = -\sum P(x)\log Q(x)$ | 교차 엔트로피 |
| $I(X; Y) = H(X) - H(X\mid Y)$ | 상호 정보량 |
분류 모델의 cross-entropy 손실은 예측 분포와 정답 분포 사이의 KL divergence를 최소화하는 것과 등가이다. 두 표기를 함께 묶어 기억하면 좋다.
§ 10LLM·Transformer 표기
LLM 논문에서 추가로 등장하는 고유 표기다.
| 표기 | 의미 |
|---|---|
| $x_{1:T} = (x_1, x_2, \ldots, x_T)$ | 토큰 시퀀스, $T$ = 길이 |
| $d_{\text{model}}$ | 임베딩 차원 (예: 512, 768, 4096) |
| $Q, K, V$ | Query, Key, Value 행렬 |
| $\text{Attention}(Q,K,V) = \text{softmax}\!\left(\dfrac{QK^\top}{\sqrt{d_k}}\right)V$ | 스케일드 닷-프로덕트 어텐션 |
| $h$ | 어텐션 헤드 수 |
| $d_k = d_{\text{model}}/h$ | 헤드별 차원 |
| $P(x_{1:T}) = \prod_{t=1}^{T} P(x_t \mid x_{<t})$ | 자기회귀 언어모델 우도 |
| $x_{<t}$ | $t$ 이전의 모든 토큰 |
| $\text{PPL} = \exp\!\left(-\dfrac{1}{T}\sum \log P(x_t\mid x_{<t})\right)$ | Perplexity (언어모델 평가 지표) |
§ 11일반 기호 · 그리스 문자의 역할
자주 마주치는 일반 기호
| 기호 | 의미 |
|---|---|
| $\mathbb{R}$, $\mathbb{R}^n$ | 실수 집합, $n$차원 실벡터 공간 |
| $\mathbb{N}, \mathbb{Z}$ | 자연수, 정수 |
| $\in$, $\subset$, $\subseteq$ | 원소, 부분집합 |
| $\forall$, $\exists$ | 모든, 존재 |
| $\propto$, $\approx$, $\sim$ | 비례, 근사, 분포를 따름 |
| $\mathbf{1}_{[\cdot]}$ | 지시 함수 (조건 참 → 1, 거짓 → 0) |
그리스 문자의 역할 분담
ML에서 그리스 문자는 분야별로 관습적 역할이 정해져 있다. 이 매핑을 외워두면 처음 보는 수식의 의미를 유추하기 쉽다.
| 문자 | 통상적 역할 |
|---|---|
| $\theta, w, \beta$ | 모델 파라미터 |
| $\eta, \alpha$ | 학습률 |
| $\lambda$ | 정규화 (L1/L2) 계수 |
| $\epsilon$ | 오차, 노이즈, 또는 작은 양수 |
| $\sigma$ | 시그모이드 함수 또는 표준편차 |
| $\mu$ | 평균 |
| $\gamma$ | 감마 분포, 강화학습의 할인율 |
| $\pi$ | 정책(policy) — 강화학습 |
| $\phi, \psi$ | 특성 변환(feature map) 함수 |
| $\Sigma$ | 공분산 행렬 또는 합 |
§ 12핵심 해석 규칙 3가지
ML 수식을 빠르게 해석하려면 다음 세 규칙이 가장 자주 작동한다. 이것만 머릿속에 박아두면 처음 보는 ML 논문 수식의 약 70%는 즉시 해독 가능하다.
인덱스 위치 규칙
- 위첨자 $(j)$ → 샘플 인덱스
- 아래첨자 $i$ → feature 인덱스
- 대괄호 위첨자 $[l]$ → 신경망 층 인덱스
모자(hat) 기호 규칙
- $\hat{\cdot}$는 항상 추정값 (학습된 값, 예측값)
- 통계학의 $\hat{\beta}$와 동일한 용법
그리스 문자의 역할 분담
- $\theta, w$: 파라미터 / $\eta, \alpha$: 학습률
- $\lambda$: 정규화 / $\epsilon$: 오차 / $\sigma$: 시그모이드 또는 표준편차
§ next다음 학습 우선순위
일반인 관점에서 다음 단계 학습 순서는 다음과 같다.
- 선형대수의 행렬-벡터 곱과 노름 — 거의 모든 ML 수식의 토대
- 편미분과 그래디언트 — 모든 학습 알고리즘이 여기서 출발
- 확률의 조건부·우도·베이즈 — 통계 배경이 있다면 빠르게 이해 가능
- 신경망 층 인덱스 표기 — 딥러닝 논문 진입의 핵심
- 어텐션 수식 — LLM 시대의 필수 표기
'생물.컴퓨터.통계' 카테고리의 다른 글
| Orange3 및 오픈소스 AutoML 및 비주얼 데이터 분석 도구 (1) | 2026.01.07 |
|---|---|
| Matrix & Tensor 학습 정리 (0) | 2025.12.24 |
| 테크 유튜버 리스트 (0) | 2025.12.20 |
| [가이드북] 강화학습 정리 (0) | 2025.12.16 |
| XAI(설명가능 AI) 최신 동향 리뷰 (1) (0) | 2025.12.14 |