ML/AI/LLM 수학 표기 학습 노트

머신러닝 논문과 강의에서 마주치는 수학 표기는 분야별로 약속(convention)이 다르다. 그러나 핵심 표기는 80% 이상 공통되며, 이 공통 규약만 익혀두면 새로운 자료를 읽을 때 진입 장벽이 크게 낮아진다. 본 노트는 강의 슬라이드의 기본 notation을 출발점으로 삼아, 지도학습부터 LLM/Transformer까지 자주 등장하는 표기를 카테고리별로 정리한다. 각 섹션은 표기 → 의미 → 의료 ML 맥락에서의 예시 순으로 구성된다.

§ 01데이터·관측치 표기

머신러닝의 기본 단위는 입력 벡터와 정답(label)이다. 한 환자의 검사 결과들($x_1$=WBC, $x_2$=CRP, $x_3$=PCT 등)을 모아놓은 것이 입력 $x$이고, 그 환자의 진단명이 $y$다.

표기	의미
$x = (x_0, x_1, \ldots, x_n)$	입력 벡터 (input)
$y$	정답(label)
$n$	특성변수(feature)의 개수
$m$	샘플 수 (sample size, batch size)
$x_i$	$i$번째 특성변수 (예: $x_1$ = WBC, $x_2$ = CRP)
$(x^{(j)}, y^{(j)})$	$j$번째 관측치
$\{(x^{(j)}, y^{(j)})\}_{j=1}^{m}$	데이터셋 / 배치
$X \in \mathbb{R}^{m \times n}$	데이터 행렬 (행=샘플, 열=feature)
$Y \in \mathbb{R}^{m \times 1}$	레이블 벡터

Convention

위첨자 $(j)$는 샘플 인덱스, 아래첨자 $i$는 feature 인덱스다. 두 인덱스가 동시에 등장하는 $x_i^{(j)}$는 $j$번째 환자의 $i$번째 검사 항목 값이라는 뜻이다. 길이 $n$의 벡터는 통상 $(1, n)$ row vector로 취급한다.

편향(bias) 처리: $x_0 = 1$, $w_0 = b$로 두면 절편을 가중치 안에 흡수해 $w^\top x$ 한 번의 내적으로 선형 모델 전체를 표현 가능하다.

§ 02모델·예측 표기

표기	의미
$h_w(x)$ 또는 $h(x)$	가설 함수 (hypothesis function)
$w = (w_0, w_1, \ldots, w_n)$	파라미터(가중치) 벡터
$W_{(1,n)}$ 또는 $W$	가중치 행렬
$\hat{y} = h_{\hat{w}}(x)$	예측치 (모자 = 추정값)
$\epsilon = y - \hat{y}$	모델 오차(잔차)
$\hat{\theta}$	일반적 파라미터의 추정값

통계학에서 $\hat{\beta}$가 회귀계수의 추정값을 의미하듯, 머신러닝에서도 모자(hat) 기호는 항상 데이터로부터 학습된 추정값을 뜻한다. $w$(이상적 참값)와 $\hat{w}$(학습된 값)는 개념적으로 구분된다.

§ 03손실·비용 함수

손실(Loss)은 단일 샘플의 오차, 비용(Cost)은 전체 데이터셋의 평균 손실이다. 두 용어는 자주 혼용되지만 엄밀히는 위계가 다르다.

표기	의미
$L(y, \hat{y})$	단일 샘플의 손실 함수
$J(w)$	전체 데이터셋의 비용 함수
$J(w) = \frac{1}{m}\sum_{j=1}^{m} L(y^{(j)}, \hat{y}^{(j)})$	경험적 위험 (empirical risk)
$\hat{w} = \arg\min_w J(w)$	최적 파라미터

대표적 손실 함수

MSE (회귀): $L = (y - \hat{y})^2$
이진 cross-entropy (분류): $L = -[y\log\hat{y} + (1-y)\log(1-\hat{y})]$
다중 분류 cross-entropy: $L = -\sum_{k=1}^{K} y_k \log \hat{y}_k$

의료 진단 모델(예: 패혈증 vs 비패혈증)에서는 거의 항상 binary cross-entropy가 쓰인다.

§ 04선형대수 표기

머신러닝 수식의 절반은 행렬 연산이다. 진단검사 결과 벡터를 다루는 감각과 직결된다.

표기	의미
$x^\top$ 또는 $x^T$	전치 (transpose)
$w^\top x = \sum_i w_i x_i$	내적 (dot product)
$\\|w\\|_2 = \sqrt{\sum w_i^2}$	L2 노름 (유클리드)
$\\|w\\|_1 = \sum \|w_i\|$	L1 노름 (LASSO 정규화)
$I$, $I_n$	항등 행렬
$A^{-1}$	역행렬
$\det(A)$	행렬식
$\text{tr}(A)$	대각합 (trace)
$a \odot b$	요소별 (Hadamard) 곱
$Av = \lambda v$	고윳값·고유벡터 (PCA의 기반)
$W \in \mathbb{R}^{m \times n}$	$m \times n$ 실수 행렬

§ 05확률·통계 표기

표기	의미
$P(A)$	사건 $A$의 확률
$P(y \mid x)$	조건부 확률 (입력 $x$가 주어졌을 때 $y$일 확률)
$\mathbb{E}[X]$, $E[X]$	기댓값
$\text{Var}(X) = \sigma^2$	분산
$\sigma$	표준편차
$x \sim \mathcal{N}(\mu, \sigma^2)$	정규분포에서 샘플링
$x \sim p(x)$	분포 $p$를 따른다
i.i.d.	독립 동일 분포
$\hat{\theta}_{\text{MLE}} = \arg\max_\theta P(\mathcal{D}\mid\theta)$	최대우도추정
$P(\theta\mid\mathcal{D}) \propto P(\mathcal{D}\mid\theta)\,P(\theta)$	베이즈 정리

머신러닝에서 모델 학습은 본질적으로 우도(likelihood)를 최대화하거나 사후확률을 추정하는 통계적 추론 과정이다. 통계 배경이 큰 자산이 되는 영역이다.

§ 06미적분·최적화 표기

표기	의미
$\frac{\partial J}{\partial w_i}$	$w_i$에 대한 편미분
$\nabla_w J$	그래디언트 (모든 편미분의 벡터)
$\nabla^2 J$, $H$	헤세 (Hessian) 행렬
$w \leftarrow w - \eta\, \nabla_w J$	경사 하강법 갱신 규칙
$\eta$ 또는 $\alpha$	학습률 (learning rate)
$\arg\min_w f(w)$	$f$를 최소화하는 $w$값
$\arg\max_w f(w)$	$f$를 최대화하는 $w$값
$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial w}$	체인 룰 (역전파의 기반)

§ 07신경망·딥러닝 표기

신경망에서는 층(layer) 인덱스가 추가되어 표기가 한 층 더 복잡해진다. 핵심은 대괄호 위첨자 $[l]$은 층, 소괄호 위첨자 $(j)$는 샘플이라는 점이다.

표기	의미
$W^{[l]}$	$l$번째 층의 가중치 행렬
$b^{[l]}$	$l$번째 층의 편향
$a^{[l]}$	$l$번째 층의 활성화 출력
$z^{[l]} = W^{[l]} a^{[l-1]} + b^{[l]}$	선형 변환 (pre-activation)
$a^{[l]} = g(z^{[l]})$	활성화 함수 적용
$\sigma(z) = \frac{1}{1+e^{-z}}$	시그모이드
$\text{ReLU}(z) = \max(0, z)$	ReLU
$\tanh(z)$	하이퍼볼릭 탄젠트
$\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$	소프트맥스 (다중 분류)

§ 08평가 지표 표기 — 의학과 직결

전문의에게 가장 친숙한 영역이다. ML 분야의 표기는 임상검사 정확도 평가의 그것과 본질적으로 같다.

ML 용어 / 임상 용어	수식
Accuracy / 정확도	$\dfrac{TP+TN}{TP+FP+TN+FN}$
Precision / 양성예측도 (PPV)	$\dfrac{TP}{TP+FP}$
Recall / 민감도 (Sensitivity)	$\dfrac{TP}{TP+FN}$
Specificity / 특이도	$\dfrac{TN}{TN+FP}$
F1 score	$2 \cdot \dfrac{P \cdot R}{P+R}$ (조화평균)
AUC-ROC / 진단검사 ROC 면적	ROC 곡선 아래 면적

ML에서 흔히 마주치는 F1 score는 임상 통계에서는 잘 쓰이지 않지만, precision과 recall의 균형을 한 숫자로 보여주는 지표라 분류 모델 비교 시 표준이다.

§ 09정보이론 표기

표기	의미
$H(X) = -\sum P(x)\log P(x)$	엔트로피 (불확실성의 척도)
$H(X, Y)$	결합 엔트로피
$H(Y \mid X)$	조건부 엔트로피
$D_{KL}(P\\|Q) = \sum P(x)\log\dfrac{P(x)}{Q(x)}$	KL divergence (분포 간 차이)
$H(P, Q) = -\sum P(x)\log Q(x)$	교차 엔트로피
$I(X; Y) = H(X) - H(X\mid Y)$	상호 정보량

분류 모델의 cross-entropy 손실은 예측 분포와 정답 분포 사이의 KL divergence를 최소화하는 것과 등가이다. 두 표기를 함께 묶어 기억하면 좋다.

§ 10LLM·Transformer 표기

LLM 논문에서 추가로 등장하는 고유 표기다.

표기	의미
$x_{1:T} = (x_1, x_2, \ldots, x_T)$	토큰 시퀀스, $T$ = 길이
$d_{\text{model}}$	임베딩 차원 (예: 512, 768, 4096)
$Q, K, V$	Query, Key, Value 행렬
$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\dfrac{QK^\top}{\sqrt{d_k}}\right)V$	스케일드 닷-프로덕트 어텐션
$h$	어텐션 헤드 수
$d_k = d_{\text{model}}/h$	헤드별 차원
$P(x_{1:T}) = \prod_{t=1}^{T} P(x_t \mid x_{<t})$	자기회귀 언어모델 우도
$x_{<t}$	$t$ 이전의 모든 토큰
$\text{PPL} = \exp\!\left(-\dfrac{1}{T}\sum \log P(x_t\mid x_{<t})\right)$	Perplexity (언어모델 평가 지표)

§ 11일반 기호 · 그리스 문자의 역할

자주 마주치는 일반 기호

기호	의미
$\mathbb{R}$, $\mathbb{R}^n$	실수 집합, $n$차원 실벡터 공간
$\mathbb{N}, \mathbb{Z}$	자연수, 정수
$\in$, $\subset$, $\subseteq$	원소, 부분집합
$\forall$, $\exists$	모든, 존재
$\propto$, $\approx$, $\sim$	비례, 근사, 분포를 따름
$\mathbf{1}_{[\cdot]}$	지시 함수 (조건 참 → 1, 거짓 → 0)

그리스 문자의 역할 분담

ML에서 그리스 문자는 분야별로 관습적 역할이 정해져 있다. 이 매핑을 외워두면 처음 보는 수식의 의미를 유추하기 쉽다.

문자	통상적 역할
$\theta, w, \beta$	모델 파라미터
$\eta, \alpha$	학습률
$\lambda$	정규화 (L1/L2) 계수
$\epsilon$	오차, 노이즈, 또는 작은 양수
$\sigma$	시그모이드 함수 또는 표준편차
$\mu$	평균
$\gamma$	감마 분포, 강화학습의 할인율
$\pi$	정책(policy) — 강화학습
$\phi, \psi$	특성 변환(feature map) 함수
$\Sigma$	공분산 행렬 또는 합

§ 12핵심 해석 규칙 3가지

ML 수식을 빠르게 해석하려면 다음 세 규칙이 가장 자주 작동한다. 이것만 머릿속에 박아두면 처음 보는 ML 논문 수식의 약 70%는 즉시 해독 가능하다.

인덱스 위치 규칙

위첨자 $(j)$ → 샘플 인덱스
아래첨자 $i$ → feature 인덱스
대괄호 위첨자 $[l]$ → 신경망 층 인덱스

ii.

모자(hat) 기호 규칙

$\hat{\cdot}$는 항상 추정값 (학습된 값, 예측값)
통계학의 $\hat{\beta}$와 동일한 용법

iii.

그리스 문자의 역할 분담

$\theta, w$: 파라미터 / $\eta, \alpha$: 학습률
$\lambda$: 정규화 / $\epsilon$: 오차 / $\sigma$: 시그모이드 또는 표준편차

§ next다음 학습 우선순위

일반인 관점에서 다음 단계 학습 순서는 다음과 같다.

선형대수의 행렬-벡터 곱과 노름 — 거의 모든 ML 수식의 토대
편미분과 그래디언트 — 모든 학습 알고리즘이 여기서 출발
확률의 조건부·우도·베이즈 — 통계 배경이 있다면 빠르게 이해 가능
신경망 층 인덱스 표기 — 딥러닝 논문 진입의 핵심
어텐션 수식 — LLM 시대의 필수 표기

Orange3 및 오픈소스 AutoML 및 비주얼 데이터 분석 도구 (1)	2026.01.07
Matrix & Tensor 학습 정리 (0)	2025.12.24
테크 유튜버 리스트 (0)	2025.12.20
[가이드북] 강화학습 정리 (0)	2025.12.16
XAI(설명가능 AI) 최신 동향 리뷰 (1) (0)	2025.12.14

프로페서 H의 메디톡