목록AI (80)
코딩하는 해맑은 거북이

해당 글은 아래의 2가지를 다룬다. 1. 엔트로피(Entropy) 2. 크로스 엔트로피(Cross-Entropy) 1. 엔트로피(Entropy) 엔트로피는 불확실성의 척도 이다. 정보이론에서의 엔트로피는 불확실성을 나타내며 엔트로피가 높다는 것은 정보가 많고 확률이 낮다는 것을 의미한다. 예시 - 동전을 던졌을 때, 앞/뒷면이 나올 확률을 모두 1/2 라고 한다. - 주사위를 던졌을 때, 각 6면이 나올 확률을 모두 1/6 라고 한다. 위의 두 상황에서 불확실성은 주사위가 더 크다고 직관적으로 다가온다. (불확실성 = 어떤 데이터가 나올지 예측하기 어려운 것) 위의 수식으로 엔트로피 값을 계산해보면, 동전의 엔트로피 값 = 약 0.693 주사위의 엔트로피 값 = 1.79 여기서 주사위의 엔트로피 값이 더..

해당 글은 Frequentist(빈도주의)와 Bayesian(베이지안)에 대해 다룬다. Check. Q. 베이지안과 프리퀀티스트 간의 입장차이를 설명해주실 수 있나요? 더보기 베이지안은 사건의 확률을 바라볼 때, 사전 확률을 미리 염두해두고 사건의 발생에 따라 베이즈 정리로 사후 확률을 구해 다시 사전 확률을 업데이트시킨다. 즉, 베이지안은 과거의 사건이 현재 사건에 영향을 끼친다는 입장을 가지고 있다. 반면, 프리퀀티스트는 확률을 무한번 실험한 결과, 객관적으로 발생하는 현상의 빈도수로 바라본다. 즉, 프리퀀티스트는 현재의 객관적인 확률에 의해서만 사건이 발생한다는 입장을 가지고 있다. Q. “likelihood”와 “probability”의 차이는 무엇일까요? 더보기 확률(Probability)은 어..

해당 글은 아래의 5가지를 다룬다. 1. Feature 2. Feature Vector 3. Feature Space 4. Feature Extraction 5. Traditional ML vs Current DL Check. Q. feature vector란 무엇일까요? 더보기 특징(feature) 이란, 샘플(데이터)을 잘 설명하는 측정가능한 속성이다. 특징을 통해 특정 샘플을 수치화하여 나타낼 수 있다. 특징벡터(feature vector) 란 피쳐(feature)들의 집합이다. 굳이 벡터로 표시하는 이유는 수학적으로 다루기 편하기 때문이다. 데이터별로 어떤 특징을 가지고 있는지 찾아내고, 그것을 토대로 데이터를 벡터로 변환하는 작업을 특징추출(feature extraction) 이라고 한다. 특징..

해당 글은 아래의 5가지를 다룬다. 1. PCA (Principle Component Analysis, 주성분 분석) 2. SVD (Singular Value Decomposition, 특이값 분해) 3. LDA (Linear Discriminant Analysis, 선형판별분석) 4. LSA (Latent Semantic Analysis, 잠재의미분석) 5. LDA (Latent Dirichlet Allocation, 잠재 디리클레 할당) Check. Q. PCA는 차원 축소 기법이면서, 데이터 압축 기법이기도 하고, 노이즈 제거 기법이기도 합니다. 왜 그런지 설명해주실 수 있나요? 더보기 PCA(Principle Component Analysis)는 입력 데이터의 공분산 행렬을 기반으로 고유벡터를 생..

해당 글은 아래의 3가지를 다룬다. 1. Cross Validation 2. Cross Validation의 장단점 3. Cross Validation의 종류 Check. Q. Cross Validation은 무엇이고 어떻게 해야하나요? 더보기 cross validation(교차검증)이란 train(학습) 데이터로 학습한 모델이, 학습에 사용되지 않은 validation(검증) 데이터를 기준으로 얼마나 잘 동작하는지 확인하는 것이다. 여기서 주의할 점은 train 데이터셋과 validation 데이터셋에는 test 데이터셋이 포함되면 안된다는 것이다. 교차검증을 통해 얻을 수 있는 장단점은 아래와 같다. - 적은 데이터에 대한 validation 신뢰성을 높일 수 있다. - 모든 데이터셋을 훈련에 활용할..

해당 글은 아래의 2가지를 다룬다. 1. Bias-Variance tradeoff 2. Regularization 3. Regularization의 종류 Check. Q. L1, L2 정규화에 대해 설명해주세요. 더보기 정규화(일반화)의 목적은 모델이 학습 데이터에 오버피팅되지 않고 처음 보는 테스트 데이터에도 좋은 성능을 내도록 만드는 것이다. 모델의 학습은 loss 함수를 최소화하는 방향으로 진행된다. 이 때, loss 함수에 L1, L2 정규화 항 (norm) 을 더함으로써 모델은 기존의 loss 도 줄이면서 정규화 항 (모델의 피쳐값과 관련) 도 줄이는 방향으로 학습된다. 모델의 피쳐값이 줄어듦에 따라 특정 피쳐가 너무 큰 값을 갖지 않게 되면서 오버피팅을 방지할 수 있게 된다. L1 정규화 (라..