[딥러닝을 위한 수학] CHAPTER 2. 확률 1부
2.1 기본 개념들 확률 : 어떤 일이 일어날 가능성을 [0, 1] 사이의 수치로 표현한 것 2.1.1 표본 공간과 사건 표본 공간(sample space) : 주어진 한 사건의 모든 가능한 결과(outcome)를 나타내는 이산 집합(discrete set) 또는 연속 구간(continuous range) 개별 사건 : 표본 공간...
2.1 기본 개념들 확률 : 어떤 일이 일어날 가능성을 [0, 1] 사이의 수치로 표현한 것 2.1.1 표본 공간과 사건 표본 공간(sample space) : 주어진 한 사건의 모든 가능한 결과(outcome)를 나타내는 이산 집합(discrete set) 또는 연속 구간(continuous range) 개별 사건 : 표본 공간...
1️⃣ Determinant and Trace Determinant: Motivation 행렬 $A = \begin{bmatrix}a_{11} & a_{12} \a_{21} & a_{22}\end{bmatrix}$에 대해: 역행렬 $A^{-1}$은 다음과 같이 정의됨: $A^...
Self-Supervised Learning and Large-Scale Pre-Trained Models What is Self-Supervised Learning? 라벨이 없는 데이터를 활용하여 데이터를 일부 숨기고 나머지를 이용해 이를 예측하는 작업을 설정하여 모델을 학습하는 방법 예시) Image Inpainti...
How Transformer Model Works Transformer: High-level View Attention module은 seq2seq에서 시퀀스 인코더와 디코더의 역할을 모두 수행할 수 있음 즉, RNN이나 CNN은 더 이상 필요하지 않고 Attention module만 있으면 됨 Long-term Dependency...
Recurrent Neural Networks Recurrent Neural Network (RNNs) 주어진 순차 데이터에 대해 동일한 함수를 시간에 따라 재귀적으로 실행함 벡터의 시퀀스 x를 다음의 재귀 공식(Recurrence Formula)을 각 시간 단계에 적용하여 처리할 수 있음 $h_t = \tanh{(W_{...
딥러닝이 항상 필요하지 않은 경우 간단한 문제일 경우: 모델도 단순해야 함. 복잡한 딥러닝 모델은 과잉 설계(overkill)일 수 있음. 나이브 베이즈 (Naive Bayes) 응용 사례: 스팸 필터링. 이메일을 특정 단어가 포함되었는지에 따라 벡터로 표현. 나...
Soft Guess 확률 기반의 예측을 제공하는 것 Hard guess $g_{\theta}(x^{(i)}) = {1, -1}$ Soft guess $g_\theta(x^{(i)}) = \begin{bmatrix}Pr(y^{(i)} = -1) \Pr(y^{(i)} = 1)\end{bmatrix}$...
분류와 회귀의 차이 분류(Classification) 출력이 이산적(유한한 값) 회귀(Regression) 출력이 연속적(실수 값) 이진 분류 목표: 데이터를 두 그룹으로 분류 모델 설정: 데이터셋 ${(x_i, y_i)}_{i=1}^n ...
Unsupervised Learning 지금까지는 Supervised Learning에 대해 주로 배웠다. Supervised Learning에서는 Data x와 Label y가 존재할 때, x → y로 매핑시키는 함수를 찾는 것을 목표로 했다. 그렇다면 Unsupervised Learning이란 무엇일까? Unsupervised Learnin...
지도학습 재방문 문제 설정: 주어진 데이터셋 $x_i, y_i$. 함수 클래스: $f_\theta(x)$. 손실 함수: $L(f_\theta(x), y)$. 목표: 손실 $L$을 최소화하는 파라미터 $\theta$를 찾는 것. 최소화 문제 기본 수학적 접근: ...