Supervised Learning과 Unsupervised Learning 차이점 알아보기

머신러닝(Machine Learning)은 크게 Supervised Learning(지도학습)Unsupervised Learning(비지도학습)으로 나뉩니다. 두 학습 방식의 핵심 차이는 데이터의 목적(target value)의 유무에 따라 결정됩니다. 이번 포스팅에서는 Supervised Learning과 Unsupervised Learning의 개념과 특징을 알아보겠습니다.

Supervised Learning (지도학습)이란?

비지도 학습을 나타내며, 입력된 원시 데이터에서 해석 단계를 거쳐 알고리즘이 처리하여 군집화된 출력을 생성하는 과정이 묘사됨

Supervised Learning은 한마디로 정의하면 명확한 정답(target value)이 주어진 상태에서 학습하는 방식입니다. 데이터가 입력(input)과 출력(label or target)을 모두 가지고 있기 때문에, 알고리즘은 주어진 데이터의 특징을 기반으로 정답을 예측할 수 있도록 훈련됩니다.

예를 들어,

  • 학생의 입학 여부를 예측하기 (합격/불합격)
  • 이메일이 스팸인지 아닌지 구분하기 (예/아니오)
  • 집값이나 주식가격을 예측하기와 같은 연속적인 값 예측

등이 Supervised Learning에 속합니다.

Supervised Learning은 다시 두 가지 유형으로 나뉩니다:

  • 분류(Classification): 예측 값이 명확히 구분된 카테고리로 나뉘는 문제입니다. 예컨대, 이 사람이 대학에 합격할지 여부와 같은 이진 분류(Binary Classification), 또는 어떤 이미지 속 사물이 고양이, 개, 자동차 등 여러 클래스 중 하나인지를 예측하는 다중 클래스 분류(Multi-class Classification)가 있습니다.

    • 알고리즘 예시: Logistic Regression, Decision Trees, Support Vector Machines(SVM), Neural Networks 등
  • 회귀(Regression): 연속적인 값을 예측하는 문제입니다. 특정한 시점의 집값, 주식 가격 등 숫자적이고 연속적인 결과를 예측할 때 사용됩니다.

    • 알고리즘 예시: Linear Regression, Ridge/Lasso Regression, Neural Networks 등

Unsupervised Learning (비지도학습)이란?

지도 학습을 나타내며, 입력된 원시 데이터가 훈련 데이터와 정답(슈퍼바이저)을 이용하여 알고리즘을 학습하고, 처리 후 분류된 출력을 생성하는 과정이 묘사됨

반면, Unsupervised Learning은 정답(레이블)이 제공되지 않은 데이터로부터 숨겨진 패턴이나 구조를 찾아내는 방식입니다. 정답이 없기 때문에 알고리즘은 데이터 자체의 내재적인 특성만으로 학습합니다.

예를 들어,

  • 고객들을 비슷한 구매 성향을 가진 그룹으로 묶기
  • 뉴스 기사를 유사한 내용끼리 분류하기
  • 온라인 쇼핑몰에서 자주 같이 팔리는 상품들의 연관성을 분석하기

등이 Unsupervised Learning의 대표적인 활용사례입니다.

Unsupervised Learning 역시 다음과 같은 대표적인 유형으로 나눌 수 있습니다:

  • 군집화(Clustering): 데이터 내에서 서로 비슷한 특성을 가진 것들을 묶어주는 기법입니다.

    • 알고리즘 예시: K-means Clustering, DBSCAN, Hierarchical Clustering 등
  • 연관 규칙(Association Rules): 데이터 내의 사건들이 얼마나 자주 함께 발생하는지, 그리고 사건 간의 연관성을 분석하는 방법입니다.

    • 알고리즘 예시: Apriori Algorithm, FP-Growth 등

Supervised Learning vs Unsupervised Learning 요약 비교

구분 Supervised Learning (지도학습) Unsupervised Learning (비지도학습)
데이터의 형태 입력(input)과 정답(label)이 모두 주어짐 입력(input)만 주어지고 정답(label)이 없음
학습 목표 주어진 정답을 정확히 예측하는 모델 구축 숨겨진 패턴이나 그룹, 연관성을 발견하는 모델 구축
문제 유형 분류(Classification), 회귀(Regression) 군집화(Clustering), 연관규칙(Association Rule)
알고리즘 예시 Logistic Regression, SVM, Linear Regression K-means, DBSCAN, Apriori
활용 사례 합격 여부 예측, 주가 예측 등 고객 세분화, 연관 상품 추천 등

마치며

Supervised Learning과 Unsupervised Learning은 머신러닝 분야의 핵심적인 두 축이며, 둘 다 실무에서 광범위하게 활용됩니다. 각각의 차이점을 명확히 이해하면 문제의 성격에 따라 적절한 방법을 선택하고, 효과적인 솔루션을 개발할 수 있게 됩니다. 머신러닝 모델링을 시작할 때는 반드시 어떤 학습 방법이 더 적합한지 검토해 보는 것이 중요합니다.