본문 바로가기

IT/[Data Science]

[ML] 머신 러닝 용어 이해하기

728x90
반응형

1. 머신 러닝 모델의 평가

dataset

  • 검증용 데이터 : 모델의 성능을 평가하기 위한 용도가 아닌, 모델의 성능을 조정하기 위한 용도 (과적합 유무 판단, 하이퍼파라미터 조정)
  • 하이퍼파라미터 : 값에 따라 모델 성능에 영향을 주는 매개변수, 사용자가 직접 정하는 변수 (학습률, 드롭아웃 비율 등)
  • 매개변수 : 모델이 학습하는 과정에서 얻어지는 값 (W, b)

훈련용 데이터로 훈련을 모두 시킨 모델은 검증용 데이터를 사용하여 정확도를 검증하며 하이퍼파라미터를 튜닝(tuning) 함

하이퍼파라미터 튜닝이 끝났다면 검증용 데이터에 대해서도 일정 부분 최적화가 됐기 때문에 테스트 데이터를 갖고 모델의 성능을 평가

2. 분류(Classification)와 회귀(Regression)

2.1. 이진 분류 문제(Binary Classification)

이진 분류는 주어진 입력에 대해 둘 중 하나의 답을 정하는 문제 (합격, 불합격 판단, 스팸 메일 분류)

2.2. 다중 클래스 분류(Multi-class Classification)

다중 클래스 분류는 주어진 입력에 대해 세 개 이상의 정해진 선택지 중 답을 정하는 문제

2.3. 회귀 문제(Regression)

회귀 문제는 연속된 값을 결과로 가집니다. (주가 예측, 생산량 예측, 지수 예측 등)

3. 지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning)

3.1. 지도 학습

지도 학습이랑 레이블(Label)이라는 정답과 함께 학습하는 것을 말함, 기계는 예측값과 실제값의 차이인 오차를 줄이는 방식으로 학습함

3.2. 비지도 학습

비지도 학습은 기본적으로 목적 데이터(또는 레이블)가 없는 학습 방법, 대표적으로 군집(clustering)이나 차원 축소와 같은 학습 방법들을 비지도 학습이라고 함

3.3. 강화학습

강화 학습은 어떤 환경 내에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법

4. 샘플(Sample)과 특성(Feature)

matrix

  • 머신 러닝에서는 하나의 데이터, 하나의 행을 샘플(Sample)이라고 함
  • 종속 변수 y를 예측하기 위한 각각의 독립 변수 x를 특성(Feature)이라고 함

5. 혼동 행렬(Confusion Matrix)

머신 러닝에서는 맞춘 문제수를 전체 문제수로 나눈 값을 정확도(Accuracy)라고 함 하지만 정확도는 맞춘 결과와 틀린 결과에 대한 세부적인 내용을 알려주지는 않음. 이를 위해서 사용하는 것이 혼동 행렬(Confusion Matrix)예를 들어 양성(Positive)과 음성(Negative)을 구분하는 이진 분류가 있다면, 혼동 행렬은 다음과 같음

혼동행렬

 

ss

  • 정밀도 : 양성이라고 대답한 전체 케이스에 대한 TP의 비율
  • 재현율 : 실제값이 양성인 데이터의 전체 개수에 대한 TP의 비율
  • F1 : 정밀도와 재현율의 조화평균으로 두 지표를 모두 균형있게 반영하여 모델의 성능을 확인

6. 과적합(Overfitting)과 과소 적합(Underfitting)

과적합 : 훈련 데이터를 과하게 학습한 경우, 훈련 데이터에 대한 오차는 낮지만 테스트 데이터에 대한 오차는 높아지는 상황이 발생

overfitting

x축의 에포크(epoch)는 전체 훈련 데이터에 대한 훈련 횟수를 의미, 위 그래프는 에포크가 3~4를 넘어가면 과적합이 발생 (테스트 오차 점점 증가)
테스트 데이터의 성능이 올라갈 여지가 있음에도 훈련을 덜 한 상태를 반대로 과소적합(Underfitting) 이라고함 과소 적합은 훈련 자체가 부족한 상태이므로 과적합과는 달리 훈련 데이터에 대해서도 정확도가 낮은 특징을 보임


출처 :

Pytorch로 시작하는 딥 러닝 입문

Pytorch

반응형