A A
[ML] Unsupervised Learning (비지도 ν•™μŠ΅)
μ΄λ²ˆμ—λŠ” 비지도 ν•™μŠ΅μ— λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.

비지도 ν•™μŠ΅(Unsupervised Learning)은 λ ˆμ΄λΈ”μ΄ μ—†λŠ” 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ 데이터 λ‚΄μ˜ νŒ¨ν„΄μ΄λ‚˜ ꡬ쑰λ₯Ό λ°œκ²¬ν•˜λŠ” λ¨Έμ‹ λŸ¬λ‹ λ°©λ²•μž…λ‹ˆλ‹€.이 ν•™μŠ΅ 방식은 데이터에 사전 지식 없이 데이터λ₯Ό λΆ„μ„ν•˜κ³ , κ·Έ μ•ˆμ— μˆ¨κ²¨μ§„ 의미 μžˆλŠ” κ΅¬μ‘°λ‚˜ 관계λ₯Ό λ°œκ²¬ν•˜λŠ” 데 쀑점을 λ‘‘λ‹ˆλ‹€.

Unsupervised Learning (비지도 ν•™μŠ΅) μ£Όμš” νŠΉμ§•

  • λ ˆμ΄λΈ” μ—†μŒ: 비지도 ν•™μŠ΅μ€ λ ˆμ΄λΈ”μ΄λ‚˜ λͺ©ν‘œ λ³€μˆ˜κ°€ μ—†λŠ” μž…λ ₯ λ°μ΄ν„°λ§Œμ„ μ‚¬μš©ν•©λ‹ˆλ‹€. μ΄λŠ” λ ˆμ΄λΈ”λ§μ΄ μ–΄λ ΅κ±°λ‚˜ λΆˆκ°€λŠ₯ν•œ λŒ€κ·œλͺ¨ 데이터셋을 λ‹€λ£° λ•Œ μœ μš©ν•©λ‹ˆλ‹€.
  • νŒ¨ν„΄ 발견: 비지도 ν•™μŠ΅μ€ 데이터 λ‚΄μ—μ„œ μˆ¨κ²¨μ§„ νŒ¨ν„΄μ΄λ‚˜ ꡬ쑰λ₯Ό νƒμƒ‰ν•˜μ—¬ 데이터 κ°„μ˜ 관계λ₯Ό μ΄ν•΄ν•˜λ €κ³  ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ νŒ¨ν„΄ λ°œκ²¬μ€ λ°μ΄ν„°μ˜ 본질적인 νŠΉμ„±μ„ μ΄ν•΄ν•˜λŠ” 데 μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.
  • 탐색적 뢄석: 비지도 ν•™μŠ΅μ€ 데이터λ₯Ό μ΄ν•΄ν•˜κ³  λΆ„μ„ν•˜λŠ” κ³Όμ •μ—μ„œ 탐색적 뢄석(Exploratory Data Analysis, EDA)의 λ„κ΅¬λ‘œ μ‚¬μš©λ©λ‹ˆλ‹€. 이λ₯Ό 톡해 잠재적인 그룹을 μ‹λ³„ν•˜κ±°λ‚˜ λ°μ΄ν„°μ˜ μ „λ°˜μ μΈ ꡬ쑰λ₯Ό νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

Unsupervised Learning (비지도 ν•™μŠ΅) μ£Όμš” μœ ν˜•

  • ν΄λŸ¬μŠ€ν„°λ§(Clustering): ν΄λŸ¬μŠ€ν„°λ§μ€ λΉ„μŠ·ν•œ νŠΉμ„±μ„ 가진 데이터 ν¬μΈνŠΈλ“€μ„ 같은 그룹으둜 λ¬ΆλŠ” κ³Όμ •μž…λ‹ˆλ‹€. λŒ€ν‘œμ μΈ ν΄λŸ¬μŠ€ν„°λ§ μ•Œκ³ λ¦¬μ¦˜μœΌλ‘œλŠ” K-평균(K-Means), 계측적 ν΄λŸ¬μŠ€ν„°λ§, DBSCAN 등이 μžˆμŠ΅λ‹ˆλ‹€.
    • 예λ₯Ό λ“€μ–΄, 고객 데이터λ₯Ό κ΅°μ§‘ν™”ν•˜μ—¬ μœ μ‚¬ν•œ μ†ŒλΉ„ νŒ¨ν„΄μ„ 가진 그룹을 식별할 수 μžˆμŠ΅λ‹ˆλ‹€.
  • 차원 μΆ•μ†Œ(Dimensionality Reduction): 차원 μΆ•μ†ŒλŠ” 고차원 데이터λ₯Ό 더 적은 수의 μ°¨μ›μœΌλ‘œ λ³€ν™˜ν•˜μ—¬ 데이터λ₯Ό μš”μ•½ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€. μ΄λŠ” λ°μ΄ν„°μ˜ μ‹œκ°ν™”λ‚˜ 처리 속도λ₯Ό ν–₯μƒμ‹œν‚€λŠ” 데 μœ μš©ν•©λ‹ˆλ‹€.
    • λŒ€ν‘œμ μΈ λ°©λ²•μœΌλ‘œλŠ” μ£Όμ„±λΆ„ 뢄석(PCA)κ³Ό t-SNEκ°€ μžˆμŠ΅λ‹ˆλ‹€.
  • μ—°κ΄€ κ·œμΉ™ ν•™μŠ΅(Association Rule Learning): μ—°κ΄€ κ·œμΉ™ ν•™μŠ΅μ€ 데이터 λ‚΄μ˜ ν•­λͺ© κ°„μ˜ ν₯미둜운 관계λ₯Ό μ°ΎλŠ” κ³Όμ •μž…λ‹ˆλ‹€. 이 방법은 주둜 μž₯λ°”κ΅¬λ‹ˆ λΆ„μ„μ—μ„œ μ‚¬μš©λ˜λ©°, 고객이 νŠΉμ • μƒν’ˆμ„ ꡬ맀할 λ•Œ ν•¨κ»˜ κ΅¬λ§€ν•˜λŠ” λ‹€λ₯Έ μƒν’ˆμ„ μ‹λ³„ν•˜λŠ” 데 μœ μš©ν•©λ‹ˆλ‹€.
    • Apriori μ•Œκ³ λ¦¬μ¦˜κ³Ό FP-Growthκ°€ λŒ€ν‘œμ μΈ λ°©λ²•μž…λ‹ˆλ‹€.

Unsupervised Learning (비지도 ν•™μŠ΅) μž₯, 단점

비지도 ν•™μŠ΅μ˜ μž₯점

  1. λ ˆμ΄λΈ”λ§ λΉ„μš© 절감: 비지도 ν•™μŠ΅μ€ λ ˆμ΄λΈ”μ΄ ν•„μš” μ—†κΈ° λ•Œλ¬Έμ— 데이터 λ ˆμ΄λΈ”λ§μ— λ“œλŠ” λΉ„μš©μ„ μ ˆκ°ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 특히 λŒ€κ·œλͺ¨ 데이터셋을 λ‹€λ£° λ•Œ 큰 μž₯점이 λ©λ‹ˆλ‹€.
  2. 데이터 탐색: 비지도 ν•™μŠ΅μ€ 데이터λ₯Ό νƒμƒ‰ν•˜κ³  μ΄ν•΄ν•˜λŠ” 데 μœ μš©ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λ°μ΄ν„°μ˜ κ΅¬μ‘°λ‚˜ 뢄포λ₯Ό νŒŒμ•…ν•  수 있으며, μ΄λŠ” μ΄ν›„μ˜ λͺ¨λΈλ§ 과정에 도움을 쀄 수 μžˆμŠ΅λ‹ˆλ‹€.
  3. μƒˆλ‘œμš΄ νŒ¨ν„΄ 발견: 비지도 ν•™μŠ΅μ€ 사전에 μ •μ˜λ˜μ§€ μ•Šμ€ μƒˆλ‘œμš΄ νŒ¨ν„΄μ΄λ‚˜ ꡬ쑰λ₯Ό λ°œκ²¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λ°μ΄ν„°μ—μ„œ μ˜ˆμƒν•˜μ§€ λͺ»ν•œ μΈμ‚¬μ΄νŠΈλ₯Ό 얻을 수 있게 ν•΄μ€λ‹ˆλ‹€.

비지도 ν•™μŠ΅μ˜ 단점

  1. κ²°κ³Ό ν•΄μ„μ˜ 어렀움: 비지도 ν•™μŠ΅μ˜ κ²°κ³ΌλŠ” μ’…μ’… μ§κ΄€μ μœΌλ‘œ ν•΄μ„ν•˜κΈ° μ–΄λ €μšΈ 수 μžˆμŠ΅λ‹ˆλ‹€. 특히 ν΄λŸ¬μŠ€ν„°λ§ κ²°κ³Όλ‚˜ 차원 μΆ•μ†Œ κ²°κ³ΌλŠ” κ·Έ 의미λ₯Ό λͺ…ν™•νžˆ μ΄ν•΄ν•˜λŠ” 데 좔가적인 뢄석이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  2. μ„±λŠ₯ ν‰κ°€μ˜ 어렀움: 비지도 ν•™μŠ΅μ€ λͺ…ν™•ν•œ λͺ©ν‘œ 값이 μ—†κΈ° λ•Œλ¬Έμ— μ •λŸ‰μ μœΌλ‘œ λͺ¨λΈμ˜ μ„±λŠ₯을 ν‰κ°€ν•˜κΈ° μ–΄λ ΅μŠ΅λ‹ˆλ‹€. 평가 λ°©λ²•μœΌλ‘œλŠ” 싀루엣 κ³„μˆ˜(Silhouette Score)λ‚˜ μ—˜λ³΄μš° 방법(Elbow Method) 등이 μžˆμ§€λ§Œ, 지도 ν•™μŠ΅μ— λΉ„ν•΄ λͺ…확성이 λ–¨μ–΄μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.
  3. μ •ν™•μ„± 보μž₯ 어렀움: 지도 ν•™μŠ΅μ— λΉ„ν•΄ 비지도 ν•™μŠ΅μ€ 예츑의 정확성을 보μž₯ν•˜κΈ° μ–΄λ ΅μŠ΅λ‹ˆλ‹€. μ΄λŠ” 데이터에 λŒ€ν•œ λͺ…ν™•ν•œ ν”Όλ“œλ°±μ΄ μ—†κΈ° λ•Œλ¬Έμ΄λ©°, 결과적으둜 λͺ¨λΈμ˜ μΌλ°˜ν™” λŠ₯λ ₯에 ν•œκ³„κ°€ μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€