goooose

goooose

Interested in ML/DL, Data Engineering.

MLP 정리

Updated: August 13, 2021

Neural Networks

Neural Networks are function approximators that stack affine transformations followed by nonlinear transforms.

뉴럴 네트워크는 수학적이고 비선형 연산이 반복적으로 일어나는 어떤 함수를 모방(근사)하는 것이다.

Linear Neural Networks

간단한 예제를 들어보자
- Data : $D = (x_i,j_i)_{i=1}^N$
- Model : $\hat{y} = wx + b$
- Loss : loss$= \frac{1}{N}\sum_{i=1}^N (y_i-\hat{y_i})^2$
그러면 최적화 변수에 대해서 편미분을 계산할 수 있다
- $\frac{\partial loss}{\partial w} = \frac{\partial}{\partial w}\frac{1}{N}\sum_{i=1}^N(y_i-\hat{y})^2 = \frac{\partial}{\partial w}\frac{1}{N}\sum_{i=1}^N(y_i - wx_i - b)^2 = -\frac{1}{N}\sum_{i=1}^N-2(y_i-wx_i-b)x_i$
이제 최적화 변수를 반복적으로 업데이트할 수 있다.
- $w \leftarrow w - \eta\frac{\partial loss}{\partial w}$
- $b \leftarrow b - \eta\frac{\partial loss}{\partial b}$
물론 multi dimension에 대해서도 핸들할 수 있다.
- $y = W^Tx + b$
- 위와 같은 식을 $x \overset{\underset{\text{{ w,b }}}{}} {\rightarrow} y$

Beyond Linear Neural Networks

What if we stack more?
- $y = W_2^Th = W_2^TW_1^Tx$
비선형 방식도 가능
- $y = W_2^Th = W_2^T\rho(W_1^Tx)$, $\rho$는 Nonlinear transform이다.
Activation functions
- ReLU
- Sigmoid
- Hyperbolic Tangent

Multi-Layer Perceptron

$y = W_2^Th = W_2^T\rho(W_1^Tx)$
출력을 다시 입력으로 넣어 레이어를 쌓은 모델을 MLP라 한다.
물론 더 깊게 쌓을 수 있다.
- $y = W_3^T h = W_3^T\rho(W_2^Th_1)$ $ = W_3^T\rho(W_2^T \rho(W_1^T x))$
loss function은 다음과 같이 사용될 수 있지만 상황에 따라 달라질 수 있다.
- Regression Task : MSE
- Classification Task : CE
- Probabilistic Task : MLE

Comments

You May Also Enjoy

Langchain GPT-OSS 구조화된 출력 트러블슈팅

November 22 2025

Databricks-gpt-oss 사용한 LLM은 gpt-oss-20b 모델이고 databricks workspace에 통합된 모델을 사용했습니다. huggingface에 업로드된 gpt-oss 모델을 사용해본 경험은 없지만 같은 에러가 발생할 것 같습니다. 만약 똑같은 문제가 일...

바이브 코딩과 증강 코딩(Vibe Coding & Augmented Coding)

August 19 2025

Vibe Coding 바이브 코딩은 자연어 프롬프트를 이용해 AI가 코드를 작성하고 사용자는 작동 결과에 관심을 기울이는 형태의 프로그래밍(?) 방식입니다. 만약, 작동 결과가 사용자의 의도와 맞지 않다면, 피드백을 통해 AI가 코드를 수정하는 방식이며 사용자는 코드에 관여하지 않...

Spark on Kubernetes

July 27 2025

Apache Spark Spark는 대규모 데이터 처리를 위한 분석 엔진입니다. Java, Scala, Python 등의 언어를 지원하고 정형 데이터를 처리할 수 있는 SparkSQL, 머신러닝을 위한 MLlib, 스트리밍 처리를 위한 Spark Streaming 등을 포함한 많은...

Python으로 Diffusion 바닥부터 구현하기[2] (im2col, UNet, DDPM)

May 24 2025

Objective 이전 글에서 UNet의 구성요소인 ResidualBlock, AttentionBlock, UpsampleBlock을 구현했습니다. Python으로 Diffusion 바닥부터 구현하기[1] (ResidualBlock, AttentionBlock, Upsampl...