Learning Note · 비전문가를 위한 ML 입문

ML / AI / LLM
수학 표기 학습 노트

A reference for notations from supervised learning to Transformers — written from a non-expert perspective.

머신러닝 논문과 강의에서 마주치는 수학 표기는 분야별로 약속(convention)이 다르다. 그러나 핵심 표기는 80% 이상 공통되며, 이 공통 규약만 익혀두면 새로운 자료를 읽을 때 진입 장벽이 크게 낮아진다. 본 노트는 강의 슬라이드의 기본 notation을 출발점으로 삼아, 지도학습부터 LLM/Transformer까지 자주 등장하는 표기를 카테고리별로 정리한다. 각 섹션은 표기 → 의미 → 의료 ML 맥락에서의 예시 순으로 구성된다.

§ 01데이터·관측치 표기

머신러닝의 기본 단위는 입력 벡터정답(label)이다. 한 환자의 검사 결과들($x_1$=WBC, $x_2$=CRP, $x_3$=PCT 등)을 모아놓은 것이 입력 $x$이고, 그 환자의 진단명이 $y$다.

표기 의미
$x = (x_0, x_1, \ldots, x_n)$ 입력 벡터 (input)
$y$ 정답(label)
$n$ 특성변수(feature)의 개수
$m$ 샘플 수 (sample size, batch size)
$x_i$ $i$번째 특성변수 (예: $x_1$ = WBC, $x_2$ = CRP)
$(x^{(j)}, y^{(j)})$ $j$번째 관측치
$\{(x^{(j)}, y^{(j)})\}_{j=1}^{m}$ 데이터셋 / 배치
$X \in \mathbb{R}^{m \times n}$ 데이터 행렬 (행=샘플, 열=feature)
$Y \in \mathbb{R}^{m \times 1}$ 레이블 벡터
Convention

위첨자 $(j)$는 샘플 인덱스, 아래첨자 $i$는 feature 인덱스다. 두 인덱스가 동시에 등장하는 $x_i^{(j)}$는 $j$번째 환자의 $i$번째 검사 항목 값이라는 뜻이다. 길이 $n$의 벡터는 통상 $(1, n)$ row vector로 취급한다.

편향(bias) 처리: $x_0 = 1$, $w_0 = b$로 두면 절편을 가중치 안에 흡수해 $w^\top x$ 한 번의 내적으로 선형 모델 전체를 표현 가능하다.

§ 02모델·예측 표기

표기 의미
$h_w(x)$ 또는 $h(x)$ 가설 함수 (hypothesis function)
$w = (w_0, w_1, \ldots, w_n)$ 파라미터(가중치) 벡터
$W_{(1,n)}$ 또는 $W$ 가중치 행렬
$\hat{y} = h_{\hat{w}}(x)$ 예측치 (모자 = 추정값)
$\epsilon = y - \hat{y}$ 모델 오차(잔차)
$\hat{\theta}$ 일반적 파라미터의 추정값

통계학에서 $\hat{\beta}$가 회귀계수의 추정값을 의미하듯, 머신러닝에서도 모자(hat) 기호는 항상 데이터로부터 학습된 추정값을 뜻한다. $w$(이상적 참값)와 $\hat{w}$(학습된 값)는 개념적으로 구분된다.

§ 03손실·비용 함수

손실(Loss)은 단일 샘플의 오차, 비용(Cost)은 전체 데이터셋의 평균 손실이다. 두 용어는 자주 혼용되지만 엄밀히는 위계가 다르다.

표기 의미
$L(y, \hat{y})$ 단일 샘플의 손실 함수
$J(w)$ 전체 데이터셋의 비용 함수
$J(w) = \frac{1}{m}\sum_{j=1}^{m} L(y^{(j)}, \hat{y}^{(j)})$ 경험적 위험 (empirical risk)
$\hat{w} = \arg\min_w J(w)$ 최적 파라미터

대표적 손실 함수

  • MSE (회귀): $L = (y - \hat{y})^2$
  • 이진 cross-entropy (분류): $L = -[y\log\hat{y} + (1-y)\log(1-\hat{y})]$
  • 다중 분류 cross-entropy: $L = -\sum_{k=1}^{K} y_k \log \hat{y}_k$

의료 진단 모델(예: 패혈증 vs 비패혈증)에서는 거의 항상 binary cross-entropy가 쓰인다.

§ 04선형대수 표기

머신러닝 수식의 절반은 행렬 연산이다. 진단검사 결과 벡터를 다루는 감각과 직결된다.

표기 의미
$x^\top$ 또는 $x^T$ 전치 (transpose)
$w^\top x = \sum_i w_i x_i$ 내적 (dot product)
$\|w\|_2 = \sqrt{\sum w_i^2}$ L2 노름 (유클리드)
$\|w\|_1 = \sum |w_i|$ L1 노름 (LASSO 정규화)
$I$, $I_n$ 항등 행렬
$A^{-1}$ 역행렬
$\det(A)$ 행렬식
$\text{tr}(A)$ 대각합 (trace)
$a \odot b$ 요소별 (Hadamard) 곱
$Av = \lambda v$ 고윳값·고유벡터 (PCA의 기반)
$W \in \mathbb{R}^{m \times n}$ $m \times n$ 실수 행렬

§ 05확률·통계 표기

표기 의미
$P(A)$ 사건 $A$의 확률
$P(y \mid x)$ 조건부 확률 (입력 $x$가 주어졌을 때 $y$일 확률)
$\mathbb{E}[X]$, $E[X]$ 기댓값
$\text{Var}(X) = \sigma^2$ 분산
$\sigma$ 표준편차
$x \sim \mathcal{N}(\mu, \sigma^2)$ 정규분포에서 샘플링
$x \sim p(x)$ 분포 $p$를 따른다
i.i.d. 독립 동일 분포
$\hat{\theta}_{\text{MLE}} = \arg\max_\theta P(\mathcal{D}\mid\theta)$ 최대우도추정
$P(\theta\mid\mathcal{D}) \propto P(\mathcal{D}\mid\theta)\,P(\theta)$ 베이즈 정리

머신러닝에서 모델 학습은 본질적으로 우도(likelihood)를 최대화하거나 사후확률을 추정하는 통계적 추론 과정이다. 통계 배경이 큰 자산이 되는 영역이다.

§ 06미적분·최적화 표기

표기 의미
$\frac{\partial J}{\partial w_i}$ $w_i$에 대한 편미분
$\nabla_w J$ 그래디언트 (모든 편미분의 벡터)
$\nabla^2 J$, $H$ 헤세 (Hessian) 행렬
$w \leftarrow w - \eta\, \nabla_w J$ 경사 하강법 갱신 규칙
$\eta$ 또는 $\alpha$ 학습률 (learning rate)
$\arg\min_w f(w)$ $f$를 최소화하는 $w$값
$\arg\max_w f(w)$ $f$를 최대화하는 $w$값
$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial w}$ 체인 룰 (역전파의 기반)

§ 07신경망·딥러닝 표기

신경망에서는 층(layer) 인덱스가 추가되어 표기가 한 층 더 복잡해진다. 핵심은 대괄호 위첨자 $[l]$은 층, 소괄호 위첨자 $(j)$는 샘플이라는 점이다.

표기 의미
$W^{[l]}$ $l$번째 층의 가중치 행렬
$b^{[l]}$ $l$번째 층의 편향
$a^{[l]}$ $l$번째 층의 활성화 출력
$z^{[l]} = W^{[l]} a^{[l-1]} + b^{[l]}$ 선형 변환 (pre-activation)
$a^{[l]} = g(z^{[l]})$ 활성화 함수 적용
$\sigma(z) = \frac{1}{1+e^{-z}}$ 시그모이드
$\text{ReLU}(z) = \max(0, z)$ ReLU
$\tanh(z)$ 하이퍼볼릭 탄젠트
$\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$ 소프트맥스 (다중 분류)

§ 08평가 지표 표기 — 의학과 직결

전문의에게 가장 친숙한 영역이다. ML 분야의 표기는 임상검사 정확도 평가의 그것과 본질적으로 같다.

ML 용어 / 임상 용어 수식
Accuracy / 정확도 $\dfrac{TP+TN}{TP+FP+TN+FN}$
Precision / 양성예측도 (PPV) $\dfrac{TP}{TP+FP}$
Recall / 민감도 (Sensitivity) $\dfrac{TP}{TP+FN}$
Specificity / 특이도 $\dfrac{TN}{TN+FP}$
F1 score $2 \cdot \dfrac{P \cdot R}{P+R}$ (조화평균)
AUC-ROC / 진단검사 ROC 면적 ROC 곡선 아래 면적

ML에서 흔히 마주치는 F1 score는 임상 통계에서는 잘 쓰이지 않지만, precision과 recall의 균형을 한 숫자로 보여주는 지표라 분류 모델 비교 시 표준이다.

§ 09정보이론 표기

표기 의미
$H(X) = -\sum P(x)\log P(x)$ 엔트로피 (불확실성의 척도)
$H(X, Y)$ 결합 엔트로피
$H(Y \mid X)$ 조건부 엔트로피
$D_{KL}(P\|Q) = \sum P(x)\log\dfrac{P(x)}{Q(x)}$ KL divergence (분포 간 차이)
$H(P, Q) = -\sum P(x)\log Q(x)$ 교차 엔트로피
$I(X; Y) = H(X) - H(X\mid Y)$ 상호 정보량

분류 모델의 cross-entropy 손실은 예측 분포와 정답 분포 사이의 KL divergence를 최소화하는 것과 등가이다. 두 표기를 함께 묶어 기억하면 좋다.

§ 10LLM·Transformer 표기

LLM 논문에서 추가로 등장하는 고유 표기다.

표기 의미
$x_{1:T} = (x_1, x_2, \ldots, x_T)$ 토큰 시퀀스, $T$ = 길이
$d_{\text{model}}$ 임베딩 차원 (예: 512, 768, 4096)
$Q, K, V$ Query, Key, Value 행렬
$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\dfrac{QK^\top}{\sqrt{d_k}}\right)V$ 스케일드 닷-프로덕트 어텐션
$h$ 어텐션 헤드 수
$d_k = d_{\text{model}}/h$ 헤드별 차원
$P(x_{1:T}) = \prod_{t=1}^{T} P(x_t \mid x_{<t})$ 자기회귀 언어모델 우도
$x_{<t}$ $t$ 이전의 모든 토큰
$\text{PPL} = \exp\!\left(-\dfrac{1}{T}\sum \log P(x_t\mid x_{<t})\right)$ Perplexity (언어모델 평가 지표)

§ 11일반 기호 · 그리스 문자의 역할

자주 마주치는 일반 기호

기호 의미
$\mathbb{R}$, $\mathbb{R}^n$ 실수 집합, $n$차원 실벡터 공간
$\mathbb{N}, \mathbb{Z}$ 자연수, 정수
$\in$, $\subset$, $\subseteq$ 원소, 부분집합
$\forall$, $\exists$ 모든, 존재
$\propto$, $\approx$, $\sim$ 비례, 근사, 분포를 따름
$\mathbf{1}_{[\cdot]}$ 지시 함수 (조건 참 → 1, 거짓 → 0)

그리스 문자의 역할 분담

ML에서 그리스 문자는 분야별로 관습적 역할이 정해져 있다. 이 매핑을 외워두면 처음 보는 수식의 의미를 유추하기 쉽다.

문자 통상적 역할
$\theta, w, \beta$ 모델 파라미터
$\eta, \alpha$ 학습률
$\lambda$ 정규화 (L1/L2) 계수
$\epsilon$ 오차, 노이즈, 또는 작은 양수
$\sigma$ 시그모이드 함수 또는 표준편차
$\mu$ 평균
$\gamma$ 감마 분포, 강화학습의 할인율
$\pi$ 정책(policy) — 강화학습
$\phi, \psi$ 특성 변환(feature map) 함수
$\Sigma$ 공분산 행렬 또는 합

§ 12핵심 해석 규칙 3가지

ML 수식을 빠르게 해석하려면 다음 세 규칙이 가장 자주 작동한다. 이것만 머릿속에 박아두면 처음 보는 ML 논문 수식의 약 70%는 즉시 해독 가능하다.

i.

인덱스 위치 규칙

  • 위첨자 $(j)$ → 샘플 인덱스
  • 아래첨자 $i$ → feature 인덱스
  • 대괄호 위첨자 $[l]$ → 신경망 층 인덱스
ii.

모자(hat) 기호 규칙

  • $\hat{\cdot}$는 항상 추정값 (학습된 값, 예측값)
  • 통계학의 $\hat{\beta}$와 동일한 용법
iii.

그리스 문자의 역할 분담

  • $\theta, w$: 파라미터 / $\eta, \alpha$: 학습률
  • $\lambda$: 정규화 / $\epsilon$: 오차 / $\sigma$: 시그모이드 또는 표준편차

§ next다음 학습 우선순위

일반인 관점에서 다음 단계 학습 순서는 다음과 같다.

  1. 선형대수의 행렬-벡터 곱과 노름 — 거의 모든 ML 수식의 토대
  2. 편미분과 그래디언트 — 모든 학습 알고리즘이 여기서 출발
  3. 확률의 조건부·우도·베이즈 — 통계 배경이 있다면 빠르게 이해 가능
  4. 신경망 층 인덱스 표기 — 딥러닝 논문 진입의 핵심
  5. 어텐션 수식 — LLM 시대의 필수 표기

이 노트는 강의 자료 Notation 슬라이드를 출발점으로 확장한 학습용 레퍼런스이다.
실제 논문에서 마주칠 때마다 다시 찾아보는 사전처럼 활용하면 좋다.

+ Recent posts