πŸ“ˆ Data Engineering/πŸ“‡ Machine Learning
  • [ML] K-Means Clustering (K-평균 ν΄λŸ¬μŠ€ν„°λ§)

    μ•žμ— κΈ€μ—μ„œ λΉ„μ§€λ„ν•™μŠ΅μ˜ 기법듀에 λ°ν•˜μ—¬ μ•Œμ•„λ³΄μ•˜μŠ΅λ‹ˆλ‹€.μ΄λ²ˆμ—λŠ” κ·Έ 쀑 ν•˜λ‚˜μΈ  K-Means Clustering (K-평균 ν΄λŸ¬μŠ€ν„°λ§)에 λ°ν•˜μ—¬ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. K-평균 ν΄λŸ¬μŠ€ν„°λ§μ€ 데이터λ₯Ό K개의 κ΅°μ§‘μœΌλ‘œ λ‚˜λˆ„μ–΄ 각 데이터 포인트λ₯Ό μœ μ‚¬ν•œ νŠΉμ„±μ„ 가진 그룹으둜 λ¬ΆλŠ” ꡰ집화 μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€.이λ₯Ό 톡해 λ°μ΄ν„°μ˜ ꡬ쑰λ₯Ό μ΄ν•΄ν•˜κ³ , 데이터 뢄석 및 μ‹œκ°ν™”λ₯Ό μš©μ΄ν•˜κ²Œ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.K-Means Clustering의 νŠΉμ§•K-평균 ν΄λŸ¬μŠ€ν„°λ§μ˜ νŠΉμ§•μ€ μ—¬λŸ¬κ°œκ°€ μžˆμŠ΅λ‹ˆλ‹€. ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. 1. ꡰ집 수 K: μ‚¬μš©μžκ°€ ꡰ집 수 Kλ₯Ό 사전에 μ •μ˜ν•΄μ•Ό ν•˜λ©°, 이 값은 λͺ¨λΈμ˜ μ„±λŠ₯에 μ§κ²°λ˜λŠ” μ€‘μš”ν•œ ν•˜μ΄νΌνŒŒλΌλ―Έν„°μž…λ‹ˆλ‹€.μ μ ˆν•œ Kλ₯Ό μ„ νƒν•˜λŠ” 것이 κ΅°μ§‘ν™”μ˜ 성곡 여뢀에 큰 영ν–₯을 λ―ΈμΉ©λ‹ˆλ‹€. 2. 거리 기반 μ•Œκ³ λ¦¬μ¦˜: K..

    μ•žμ— κΈ€μ—μ„œ λΉ„μ§€λ„ν•™μŠ΅μ˜ 기법듀에 λ°ν•˜μ—¬ μ•Œμ•„λ³΄μ•˜μŠ΅λ‹ˆλ‹€.μ΄λ²ˆμ—λŠ” κ·Έ 쀑 ν•˜λ‚˜μΈ  K-Means Clustering (K-평균 ν΄λŸ¬μŠ€ν„°λ§)에 λ°ν•˜μ—¬ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. K-평균 ν΄λŸ¬μŠ€ν„°λ§μ€ 데이터λ₯Ό K개의 κ΅°μ§‘μœΌλ‘œ λ‚˜λˆ„μ–΄ 각 데이터 포인트λ₯Ό μœ μ‚¬ν•œ νŠΉμ„±μ„ 가진 그룹으둜 λ¬ΆλŠ” ꡰ집화 μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€.이λ₯Ό 톡해 λ°μ΄ν„°μ˜ ꡬ쑰λ₯Ό μ΄ν•΄ν•˜κ³ , 데이터 뢄석 및 μ‹œκ°ν™”λ₯Ό μš©μ΄ν•˜κ²Œ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.K-Means Clustering의 νŠΉμ§•K-평균 ν΄λŸ¬μŠ€ν„°λ§μ˜ νŠΉμ§•μ€ μ—¬λŸ¬κ°œκ°€ μžˆμŠ΅λ‹ˆλ‹€. ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. 1. ꡰ집 수 K: μ‚¬μš©μžκ°€ ꡰ집 수 Kλ₯Ό 사전에 μ •μ˜ν•΄μ•Ό ν•˜λ©°, 이 값은 λͺ¨λΈμ˜ μ„±λŠ₯에 μ§κ²°λ˜λŠ” μ€‘μš”ν•œ ν•˜μ΄νΌνŒŒλΌλ―Έν„°μž…λ‹ˆλ‹€.μ μ ˆν•œ Kλ₯Ό μ„ νƒν•˜λŠ” 것이 κ΅°μ§‘ν™”μ˜ 성곡 여뢀에 큰 영ν–₯을 λ―ΈμΉ©λ‹ˆλ‹€. 2. 거리 기반 μ•Œκ³ λ¦¬μ¦˜: K..

    Read more
  • [ML] Unsupervised Learning (비지도 ν•™μŠ΅)

    μ΄λ²ˆμ—λŠ” 비지도 ν•™μŠ΅μ— λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.비지도 ν•™μŠ΅(Unsupervised Learning)은 λ ˆμ΄λΈ”μ΄ μ—†λŠ” 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ 데이터 λ‚΄μ˜ νŒ¨ν„΄μ΄λ‚˜ ꡬ쑰λ₯Ό λ°œκ²¬ν•˜λŠ” λ¨Έμ‹ λŸ¬λ‹ λ°©λ²•μž…λ‹ˆλ‹€.이 ν•™μŠ΅ 방식은 데이터에 사전 지식 없이 데이터λ₯Ό λΆ„μ„ν•˜κ³ , κ·Έ μ•ˆμ— μˆ¨κ²¨μ§„ 의미 μžˆλŠ” κ΅¬μ‘°λ‚˜ 관계λ₯Ό λ°œκ²¬ν•˜λŠ” 데 쀑점을 λ‘‘λ‹ˆλ‹€.Unsupervised Learning (비지도 ν•™μŠ΅) μ£Όμš” νŠΉμ§•λ ˆμ΄λΈ” μ—†μŒ: 비지도 ν•™μŠ΅μ€ λ ˆμ΄λΈ”μ΄λ‚˜ λͺ©ν‘œ λ³€μˆ˜κ°€ μ—†λŠ” μž…λ ₯ λ°μ΄ν„°λ§Œμ„ μ‚¬μš©ν•©λ‹ˆλ‹€. μ΄λŠ” λ ˆμ΄λΈ”λ§μ΄ μ–΄λ ΅κ±°λ‚˜ λΆˆκ°€λŠ₯ν•œ λŒ€κ·œλͺ¨ 데이터셋을 λ‹€λ£° λ•Œ μœ μš©ν•©λ‹ˆλ‹€.νŒ¨ν„΄ 발견: 비지도 ν•™μŠ΅μ€ 데이터 λ‚΄μ—μ„œ μˆ¨κ²¨μ§„ νŒ¨ν„΄μ΄λ‚˜ ꡬ쑰λ₯Ό νƒμƒ‰ν•˜μ—¬ 데이터 κ°„μ˜ 관계λ₯Ό μ΄ν•΄ν•˜λ €κ³  ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ νŒ¨ν„΄ λ°œκ²¬μ€ λ°μ΄ν„°μ˜ 본질적인 νŠΉμ„±μ„ μ΄ν•΄ν•˜λŠ” ..

    μ΄λ²ˆμ—λŠ” 비지도 ν•™μŠ΅μ— λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.비지도 ν•™μŠ΅(Unsupervised Learning)은 λ ˆμ΄λΈ”μ΄ μ—†λŠ” 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ 데이터 λ‚΄μ˜ νŒ¨ν„΄μ΄λ‚˜ ꡬ쑰λ₯Ό λ°œκ²¬ν•˜λŠ” λ¨Έμ‹ λŸ¬λ‹ λ°©λ²•μž…λ‹ˆλ‹€.이 ν•™μŠ΅ 방식은 데이터에 사전 지식 없이 데이터λ₯Ό λΆ„μ„ν•˜κ³ , κ·Έ μ•ˆμ— μˆ¨κ²¨μ§„ 의미 μžˆλŠ” κ΅¬μ‘°λ‚˜ 관계λ₯Ό λ°œκ²¬ν•˜λŠ” 데 쀑점을 λ‘‘λ‹ˆλ‹€.Unsupervised Learning (비지도 ν•™μŠ΅) μ£Όμš” νŠΉμ§•λ ˆμ΄λΈ” μ—†μŒ: 비지도 ν•™μŠ΅μ€ λ ˆμ΄λΈ”μ΄λ‚˜ λͺ©ν‘œ λ³€μˆ˜κ°€ μ—†λŠ” μž…λ ₯ λ°μ΄ν„°λ§Œμ„ μ‚¬μš©ν•©λ‹ˆλ‹€. μ΄λŠ” λ ˆμ΄λΈ”λ§μ΄ μ–΄λ ΅κ±°λ‚˜ λΆˆκ°€λŠ₯ν•œ λŒ€κ·œλͺ¨ 데이터셋을 λ‹€λ£° λ•Œ μœ μš©ν•©λ‹ˆλ‹€.νŒ¨ν„΄ 발견: 비지도 ν•™μŠ΅μ€ 데이터 λ‚΄μ—μ„œ μˆ¨κ²¨μ§„ νŒ¨ν„΄μ΄λ‚˜ ꡬ쑰λ₯Ό νƒμƒ‰ν•˜μ—¬ 데이터 κ°„μ˜ 관계λ₯Ό μ΄ν•΄ν•˜λ €κ³  ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ νŒ¨ν„΄ λ°œκ²¬μ€ λ°μ΄ν„°μ˜ 본질적인 νŠΉμ„±μ„ μ΄ν•΄ν•˜λŠ” ..

    Read more
  • [ML] 신경망 (Neural Network) - λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ 

    μ΄λ²ˆμ—λŠ” λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ (Multilayer Perceptron, MLP)에 λ°ν•˜μ—¬ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ (Multilayer Perceptron, MLP)λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ (Multilayer Perceptron, MLP)은 기본적인 인곡 μ‹ κ²½λ§μ˜ ν˜•νƒœ 쀑 ν•˜λ‚˜λ‘œ, 특히 λ³΅μž‘ν•œ λΉ„μ„ ν˜• 관계와 νŒ¨ν„΄μ„ ν•™μŠ΅ν•  수 μžˆλŠ” λŠ₯λ ₯으둜 인해 λΆ„λ₯˜ 및 νšŒκ·€ λ¬Έμ œμ— 널리 μ‚¬μš©λ©λ‹ˆλ‹€. κΈ°λ³Έ κ΅¬μ‘°λŠ” μž…λ ₯μΈ΅, ν•˜λ‚˜ μ΄μƒμ˜ 은닉측, 그리고 좜λ ₯측으둜 이루어진 FeedForward 신경망 이며, 각 측은 μ—¬λŸ¬ λ‰΄λŸ°μœΌλ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€.λ˜ν•œ 각 λ‰΄λŸ°μ€ μ΄μ „μΈ΅μ˜ λ‰΄λŸ°μœΌλ‘œλΆ€ν„° μž…λ ₯을 λ°›μ•„ κ°€μ€‘μΉ˜λ₯Ό μ μš©ν•˜κ³ , ν™œμ„±ν™” ν•¨μˆ˜λ₯Ό 톡해 좜λ ₯을 μƒμ„±ν•©λ‹ˆλ‹€.λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ (Multilayer Perceptron, MLP)의 ꡬ쑰닀측 νΌμ…‰νŠΈλ‘ μ˜ κ΅¬μ‘°λŠ” ..

    μ΄λ²ˆμ—λŠ” λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ (Multilayer Perceptron, MLP)에 λ°ν•˜μ—¬ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ (Multilayer Perceptron, MLP)λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ (Multilayer Perceptron, MLP)은 기본적인 인곡 μ‹ κ²½λ§μ˜ ν˜•νƒœ 쀑 ν•˜λ‚˜λ‘œ, 특히 λ³΅μž‘ν•œ λΉ„μ„ ν˜• 관계와 νŒ¨ν„΄μ„ ν•™μŠ΅ν•  수 μžˆλŠ” λŠ₯λ ₯으둜 인해 λΆ„λ₯˜ 및 νšŒκ·€ λ¬Έμ œμ— 널리 μ‚¬μš©λ©λ‹ˆλ‹€. κΈ°λ³Έ κ΅¬μ‘°λŠ” μž…λ ₯μΈ΅, ν•˜λ‚˜ μ΄μƒμ˜ 은닉측, 그리고 좜λ ₯측으둜 이루어진 FeedForward 신경망 이며, 각 측은 μ—¬λŸ¬ λ‰΄λŸ°μœΌλ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€.λ˜ν•œ 각 λ‰΄λŸ°μ€ μ΄μ „μΈ΅μ˜ λ‰΄λŸ°μœΌλ‘œλΆ€ν„° μž…λ ₯을 λ°›μ•„ κ°€μ€‘μΉ˜λ₯Ό μ μš©ν•˜κ³ , ν™œμ„±ν™” ν•¨μˆ˜λ₯Ό 톡해 좜λ ₯을 μƒμ„±ν•©λ‹ˆλ‹€.λ‹€μΈ΅ νΌμ…‰νŠΈλ‘ (Multilayer Perceptron, MLP)의 ꡬ쑰닀측 νΌμ…‰νŠΈλ‘ μ˜ κ΅¬μ‘°λŠ” ..

    Read more
  • [ML] Random Forest (랜덀 포레슀트)

    μ΄λ²ˆμ—λŠ” Random Forest (랜덀 포레슀트) 기법에 λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. λžœλ€ 포레슀트(Random Forest)λŠ” κ²°μ • 트리의 앙상블 방법 쀑 ν•˜λ‚˜λ‘œ, μ—¬λŸ¬ 개의 κ²°μ • 트리λ₯Ό μƒμ„±ν•˜κ³  κ·Έ μ˜ˆμΈ‘μ„ κ²°ν•©ν•˜μ—¬ λ”μš± κ°•λ ₯ν•˜κ³  μ•ˆμ •μ μΈ λͺ¨λΈμ„ λ§Œλ“œλŠ” λ°©λ²•μž…λ‹ˆλ‹€. 이 방법은 특히 λΆ„λ₯˜μ™€ νšŒκ·€ λ¬Έμ œμ— 효과적이며, κ°œλ³„ κ²°μ • 트리의 과적합 문제λ₯Ό κ·Ήλ³΅ν•˜κ³ , 전체적인 예츑 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” 데 도움을 μ€λ‹ˆλ‹€. Random Forest (랜덀 포레슀트)의 μ£Όμš” νŠΉμ§•λ‹€μ–‘μ„± (Diversity)랜덀 ν¬λ ˆμŠ€νŠΈλŠ” 각각의 κ²°μ • νŠΈλ¦¬κ°€ λ°μ΄ν„°μ˜ μ„œλ‘œ λ‹€λ₯Έ 뢀뢄집합과 νŠΉμ„±μ„ μ‚¬μš©ν•˜μ—¬ ν•™μŠ΅ν•©λ‹ˆλ‹€. μ΄λŠ” 각 νŠΈλ¦¬κ°€ λ…λ¦½μ μœΌλ‘œ λ‹€λ₯Έ νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜λ„λ‘ ν•˜μ—¬ λͺ¨λΈ μ „μ²΄μ˜ 닀양성을 λ†’μž…λ‹ˆλ‹€.μ΄λŸ¬ν•œ μ ‘κ·Ό 방식은 트리 κ°„μ˜ 상관관계..

    μ΄λ²ˆμ—λŠ” Random Forest (랜덀 포레슀트) 기법에 λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. λžœλ€ 포레슀트(Random Forest)λŠ” κ²°μ • 트리의 앙상블 방법 쀑 ν•˜λ‚˜λ‘œ, μ—¬λŸ¬ 개의 κ²°μ • 트리λ₯Ό μƒμ„±ν•˜κ³  κ·Έ μ˜ˆμΈ‘μ„ κ²°ν•©ν•˜μ—¬ λ”μš± κ°•λ ₯ν•˜κ³  μ•ˆμ •μ μΈ λͺ¨λΈμ„ λ§Œλ“œλŠ” λ°©λ²•μž…λ‹ˆλ‹€. 이 방법은 특히 λΆ„λ₯˜μ™€ νšŒκ·€ λ¬Έμ œμ— 효과적이며, κ°œλ³„ κ²°μ • 트리의 과적합 문제λ₯Ό κ·Ήλ³΅ν•˜κ³ , 전체적인 예츑 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” 데 도움을 μ€λ‹ˆλ‹€. Random Forest (랜덀 포레슀트)의 μ£Όμš” νŠΉμ§•λ‹€μ–‘μ„± (Diversity)랜덀 ν¬λ ˆμŠ€νŠΈλŠ” 각각의 κ²°μ • νŠΈλ¦¬κ°€ λ°μ΄ν„°μ˜ μ„œλ‘œ λ‹€λ₯Έ 뢀뢄집합과 νŠΉμ„±μ„ μ‚¬μš©ν•˜μ—¬ ν•™μŠ΅ν•©λ‹ˆλ‹€. μ΄λŠ” 각 νŠΈλ¦¬κ°€ λ…λ¦½μ μœΌλ‘œ λ‹€λ₯Έ νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜λ„λ‘ ν•˜μ—¬ λͺ¨λΈ μ „μ²΄μ˜ 닀양성을 λ†’μž…λ‹ˆλ‹€.μ΄λŸ¬ν•œ μ ‘κ·Ό 방식은 트리 κ°„μ˜ 상관관계..

    Read more
  • [ML] Decision Tree (κ²°μ • 트리)

    μ΄λ²ˆμ—λŠ” Decision Tree (κ²°μ • 트리)에 λ°ν•˜μ—¬ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. κ²°μ •νŠΈλ¦¬(Decision Tree)λŠ” λΆ„λ₯˜μ™€ νšŒκ·€ λ¬Έμ œμ— λͺ¨λ‘ μ‚¬μš©λ  수 μžˆλŠ” μ§€λ„ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€.이 λͺ¨λΈμ€ 데이터λ₯Ό 트리 ꡬ쑰둜 λΆ„ν• ν•˜μ—¬ μ˜ˆμΈ‘μ„ μˆ˜ν–‰ν•˜λ©°, 각 λ‚΄λΆ€ λ…Έλ“œλŠ” νŠΉμ • 쑰건에 λ”°λ₯Έ 데이터 뢄할을 λ‚˜νƒ€λ‚΄κ³ , 가지(branch)λŠ” κ·Έ 쑰건의 κ²°κ³Όλ₯Ό λ‚˜νƒ€λ‚΄λ©°, μ΅œμ’… 리프 λ…Έλ“œ(leaf node)λŠ” 예츑 값을 μ œκ³΅ν•©λ‹ˆλ‹€.Decision Tree의 μ£Όμš” νŠΉμ§•μ§κ΄€μ„±: κ²°μ • νŠΈλ¦¬λŠ” μ‹œκ°μ μœΌλ‘œ ν‘œν˜„ν•  수 μžˆμ–΄ 이해가 μ‰½μŠ΅λ‹ˆλ‹€.λΉ„λͺ¨μˆ˜μ  방법: λ°μ΄ν„°μ˜ 뢄포에 λŒ€ν•΄ νŠΉμ • 가정을 ν•˜μ§€ μ•ŠμœΌλ―€λ‘œ λ‹€μ–‘ν•œ 데이터셋에 적용 κ°€λŠ₯ν•©λ‹ˆλ‹€.해석 μš©μ΄μ„±: λͺ¨λΈμ΄ μ–΄λ–»κ²Œ 결정을 λ‚΄λ ΈλŠ”μ§€ μ‰½κ²Œ 해석할 수 μžˆμŠ΅λ‹ˆλ‹€.Decision Tree의 κΈ°λ³Έ μ›λ¦¬λ…Έλ“œμ™€..

    μ΄λ²ˆμ—λŠ” Decision Tree (κ²°μ • 트리)에 λ°ν•˜μ—¬ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. κ²°μ •νŠΈλ¦¬(Decision Tree)λŠ” λΆ„λ₯˜μ™€ νšŒκ·€ λ¬Έμ œμ— λͺ¨λ‘ μ‚¬μš©λ  수 μžˆλŠ” μ§€λ„ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€.이 λͺ¨λΈμ€ 데이터λ₯Ό 트리 ꡬ쑰둜 λΆ„ν• ν•˜μ—¬ μ˜ˆμΈ‘μ„ μˆ˜ν–‰ν•˜λ©°, 각 λ‚΄λΆ€ λ…Έλ“œλŠ” νŠΉμ • 쑰건에 λ”°λ₯Έ 데이터 뢄할을 λ‚˜νƒ€λ‚΄κ³ , 가지(branch)λŠ” κ·Έ 쑰건의 κ²°κ³Όλ₯Ό λ‚˜νƒ€λ‚΄λ©°, μ΅œμ’… 리프 λ…Έλ“œ(leaf node)λŠ” 예츑 값을 μ œκ³΅ν•©λ‹ˆλ‹€.Decision Tree의 μ£Όμš” νŠΉμ§•μ§κ΄€μ„±: κ²°μ • νŠΈλ¦¬λŠ” μ‹œκ°μ μœΌλ‘œ ν‘œν˜„ν•  수 μžˆμ–΄ 이해가 μ‰½μŠ΅λ‹ˆλ‹€.λΉ„λͺ¨μˆ˜μ  방법: λ°μ΄ν„°μ˜ 뢄포에 λŒ€ν•΄ νŠΉμ • 가정을 ν•˜μ§€ μ•ŠμœΌλ―€λ‘œ λ‹€μ–‘ν•œ 데이터셋에 적용 κ°€λŠ₯ν•©λ‹ˆλ‹€.해석 μš©μ΄μ„±: λͺ¨λΈμ΄ μ–΄λ–»κ²Œ 결정을 λ‚΄λ ΈλŠ”μ§€ μ‰½κ²Œ 해석할 수 μžˆμŠ΅λ‹ˆλ‹€.Decision Tree의 κΈ°λ³Έ μ›λ¦¬λ…Έλ“œμ™€..

    Read more
  • [ML] Support Vector Machine (SVM, μ„œν¬νŠΈ 벑터 λ¨Έμ‹ )

    μ΄λ²ˆμ—λŠ” Support Vector Machine (μ„œν¬νŠΈ 벑터 λ¨Έμ‹ )에 λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. μ„œν¬νŠΈ 벑터 λ¨Έμ‹ (Support Vector Machine, SVM)은 λ³΅μž‘ν•œ λ°μ΄ν„°μ…‹μ—μ„œλ„ 효과적인 λΆ„λ₯˜λ₯Ό μˆ˜ν–‰ν•  수 μžˆλŠ” κ°•λ ₯ν•œ μ§€λ„ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€. 이 μ•Œκ³ λ¦¬μ¦˜μ€ 데이터λ₯Ό λΆ„λ¦¬ν•˜λŠ” 졜적의 μ΄ˆν‰λ©΄(κ²°μ • 경계)을 μ°Ύμ•„λ‚΄λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€.SVM의 μ£Όμš” νŠΉμ§•κ³Ό 원리λ₯Ό μžμ„Ένžˆ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€. Support Vector Machine (SVM)의 μ£Όμš” νŠΉμ§•κ²°μ • μ΄ˆν‰λ©΄(Decision Hyperplane): 두 클래슀λ₯Ό λΆ„λ¦¬ν•˜λŠ” κ°€μž₯ 쒋은 μ΄ˆν‰λ©΄μ„ μ°ΎμŠ΅λ‹ˆλ‹€. 이 평면은 두 클래슀 κ°„μ˜ λ§ˆμ§„(거리)을 μ΅œλŒ€ν™”ν•©λ‹ˆλ‹€.w: μ΄ˆν‰λ©΄μ˜ 법선 벑터, x: 데이터 포인트, b: 절편w * x + b = 0μ„œν¬νŠΈ 벑터..

    μ΄λ²ˆμ—λŠ” Support Vector Machine (μ„œν¬νŠΈ 벑터 λ¨Έμ‹ )에 λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. μ„œν¬νŠΈ 벑터 λ¨Έμ‹ (Support Vector Machine, SVM)은 λ³΅μž‘ν•œ λ°μ΄ν„°μ…‹μ—μ„œλ„ 효과적인 λΆ„λ₯˜λ₯Ό μˆ˜ν–‰ν•  수 μžˆλŠ” κ°•λ ₯ν•œ μ§€λ„ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€. 이 μ•Œκ³ λ¦¬μ¦˜μ€ 데이터λ₯Ό λΆ„λ¦¬ν•˜λŠ” 졜적의 μ΄ˆν‰λ©΄(κ²°μ • 경계)을 μ°Ύμ•„λ‚΄λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€.SVM의 μ£Όμš” νŠΉμ§•κ³Ό 원리λ₯Ό μžμ„Ένžˆ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€. Support Vector Machine (SVM)의 μ£Όμš” νŠΉμ§•κ²°μ • μ΄ˆν‰λ©΄(Decision Hyperplane): 두 클래슀λ₯Ό λΆ„λ¦¬ν•˜λŠ” κ°€μž₯ 쒋은 μ΄ˆν‰λ©΄μ„ μ°ΎμŠ΅λ‹ˆλ‹€. 이 평면은 두 클래슀 κ°„μ˜ λ§ˆμ§„(거리)을 μ΅œλŒ€ν™”ν•©λ‹ˆλ‹€.w: μ΄ˆν‰λ©΄μ˜ 법선 벑터, x: 데이터 포인트, b: 절편w * x + b = 0μ„œν¬νŠΈ 벑터..

    Read more
  • [ML] Logistic Regression (λ‘œμ§€μŠ€ν‹± νšŒκ·€)

    μ΄λ²ˆμ—” Logistic Regression (λ‘œμ§€μŠ€ν‹± νšŒκ·€)에 λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.Logistic Regression (λ‘œμ§€μŠ€ν‹± νšŒκ·€)λ‘œμ§€μŠ€ν‹± νšŒκ·€(Logistic Regression)λŠ” 주둜 이진 λΆ„λ₯˜ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ‚¬μš©λ˜λŠ” 톡계적 λͺ¨λΈμž…λ‹ˆλ‹€.μž…λ ₯된 독립 λ³€μˆ˜λ“€μ˜ μ„ ν˜• 결합을 톡해 쒅속 λ³€μˆ˜(이진 λ³€μˆ˜)의 λ°œμƒ ν™•λ₯ μ„ μ˜ˆμΈ‘ν•©λ‹ˆλ‹€.λ‘œμ§€μŠ€ν‹± νšŒκ·€μ˜ μ£Όμš” νŠΉμ§• λΆ„λ₯˜ μ•Œκ³ λ¦¬μ¦˜: 이진 λΆ„λ₯˜ 문제λ₯Ό 주둜 ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ‚¬μš©λ©λ‹ˆλ‹€. 닀쀑 클래슀 λΆ„λ₯˜ λ¬Έμ œμ—μ„œλ„ ν™•μž₯ν•  수 μžˆμŠ΅λ‹ˆλ‹€.ν™•λ₯  좜λ ₯: 예츑 κ²°κ³Όλ₯Ό 0κ³Ό 1 μ‚¬μ΄μ˜ ν™•λ₯  κ°’μœΌλ‘œ 좜λ ₯ν•©λ‹ˆλ‹€.μ„ ν˜• νšŒκ·€μ™€μ˜ 차이점: μ„ ν˜• νšŒκ·€λŠ” 연속적인 값을 μ˜ˆμΈ‘ν•˜μ§€λ§Œ, λ‘œμ§€μŠ€ν‹± νšŒκ·€λŠ” 이진 값을 μ˜ˆμΈ‘ν•©λ‹ˆλ‹€.λ‘œμ§€μŠ€ν‹± νšŒκ·€μ˜ κΈ°λ³Έ μ›λ¦¬κ·ΈλŸ¬λ©΄, Logistic Regre..

    μ΄λ²ˆμ—” Logistic Regression (λ‘œμ§€μŠ€ν‹± νšŒκ·€)에 λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.Logistic Regression (λ‘œμ§€μŠ€ν‹± νšŒκ·€)λ‘œμ§€μŠ€ν‹± νšŒκ·€(Logistic Regression)λŠ” 주둜 이진 λΆ„λ₯˜ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ‚¬μš©λ˜λŠ” 톡계적 λͺ¨λΈμž…λ‹ˆλ‹€.μž…λ ₯된 독립 λ³€μˆ˜λ“€μ˜ μ„ ν˜• 결합을 톡해 쒅속 λ³€μˆ˜(이진 λ³€μˆ˜)의 λ°œμƒ ν™•λ₯ μ„ μ˜ˆμΈ‘ν•©λ‹ˆλ‹€.λ‘œμ§€μŠ€ν‹± νšŒκ·€μ˜ μ£Όμš” νŠΉμ§• λΆ„λ₯˜ μ•Œκ³ λ¦¬μ¦˜: 이진 λΆ„λ₯˜ 문제λ₯Ό 주둜 ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ‚¬μš©λ©λ‹ˆλ‹€. 닀쀑 클래슀 λΆ„λ₯˜ λ¬Έμ œμ—μ„œλ„ ν™•μž₯ν•  수 μžˆμŠ΅λ‹ˆλ‹€.ν™•λ₯  좜λ ₯: 예츑 κ²°κ³Όλ₯Ό 0κ³Ό 1 μ‚¬μ΄μ˜ ν™•λ₯  κ°’μœΌλ‘œ 좜λ ₯ν•©λ‹ˆλ‹€.μ„ ν˜• νšŒκ·€μ™€μ˜ 차이점: μ„ ν˜• νšŒκ·€λŠ” 연속적인 값을 μ˜ˆμΈ‘ν•˜μ§€λ§Œ, λ‘œμ§€μŠ€ν‹± νšŒκ·€λŠ” 이진 값을 μ˜ˆμΈ‘ν•©λ‹ˆλ‹€.λ‘œμ§€μŠ€ν‹± νšŒκ·€μ˜ κΈ°λ³Έ μ›λ¦¬κ·ΈλŸ¬λ©΄, Logistic Regre..

    Read more
  • [ML] K-Nearest Neighbors, K-NN (K-μ΅œκ·Όμ ‘ 이웃)

    μ΄λ²ˆμ—”λŠ” K-NN에 λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.K-NN μ΄λž€?K-NN(μ΅œκ·Όμ ‘ 이웃 μ•Œκ³ λ¦¬μ¦˜)은 데이터 λΆ„λ₯˜ 및 νšŒκ·€ λ¬Έμ œμ—μ„œ 널리 μ‚¬μš©λ˜λŠ” λΉ„λͺ¨μˆ˜μ  기계 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€.μž…λ ₯ 데이터 포인트의 클래슀λ₯Ό μ˜ˆμΈ‘ν•˜κΈ° μœ„ν•΄ κ·Έ 데이터 ν¬μΈνŠΈμ™€ κ°€μž₯ κ°€κΉŒμš΄ K개의 이웃을 기반으둜 결정을 λ‚΄λ¦¬λŠ” μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€.K-NN은 λΆ„λ₯˜(Classification)와 νšŒκ·€(Regression) 문제 λͺ¨λ‘μ— μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.K-NN의 μ£Όμš” νŠΉμ§•1. λΉ„λͺ¨μˆ˜μ  방법K-NN은 데이터 뢄포에 λŒ€ν•΄ νŠΉμ •ν•œ 가정을 ν•˜μ§€ μ•ŠλŠ” λΉ„λͺ¨μˆ˜μ (non-parametric) λ°©λ²•μž…λ‹ˆλ‹€. μ΄λŠ” λ°μ΄ν„°μ˜ ν˜•νƒœλ‚˜ 뢄포에 λŒ€ν•΄ 사전 지식이 없어도 μ‚¬μš©ν•  수 μžˆλ‹€λŠ” 것을 μ˜λ―Έν•©λ‹ˆλ‹€.2. λ©”λͺ¨λ¦¬ 기반λͺ¨λΈμ„ ν•™μŠ΅ν•˜λŠ” 과정이 μ—†κ³ , 예츑 μ‹œμ— λͺ¨λ“  ν•™μŠ΅ 데이터..

    μ΄λ²ˆμ—”λŠ” K-NN에 λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.K-NN μ΄λž€?K-NN(μ΅œκ·Όμ ‘ 이웃 μ•Œκ³ λ¦¬μ¦˜)은 데이터 λΆ„λ₯˜ 및 νšŒκ·€ λ¬Έμ œμ—μ„œ 널리 μ‚¬μš©λ˜λŠ” λΉ„λͺ¨μˆ˜μ  기계 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€.μž…λ ₯ 데이터 포인트의 클래슀λ₯Ό μ˜ˆμΈ‘ν•˜κΈ° μœ„ν•΄ κ·Έ 데이터 ν¬μΈνŠΈμ™€ κ°€μž₯ κ°€κΉŒμš΄ K개의 이웃을 기반으둜 결정을 λ‚΄λ¦¬λŠ” μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€.K-NN은 λΆ„λ₯˜(Classification)와 νšŒκ·€(Regression) 문제 λͺ¨λ‘μ— μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.K-NN의 μ£Όμš” νŠΉμ§•1. λΉ„λͺ¨μˆ˜μ  방법K-NN은 데이터 뢄포에 λŒ€ν•΄ νŠΉμ •ν•œ 가정을 ν•˜μ§€ μ•ŠλŠ” λΉ„λͺ¨μˆ˜μ (non-parametric) λ°©λ²•μž…λ‹ˆλ‹€. μ΄λŠ” λ°μ΄ν„°μ˜ ν˜•νƒœλ‚˜ 뢄포에 λŒ€ν•΄ 사전 지식이 없어도 μ‚¬μš©ν•  수 μžˆλ‹€λŠ” 것을 μ˜λ―Έν•©λ‹ˆλ‹€.2. λ©”λͺ¨λ¦¬ 기반λͺ¨λΈμ„ ν•™μŠ΅ν•˜λŠ” 과정이 μ—†κ³ , 예츑 μ‹œμ— λͺ¨λ“  ν•™μŠ΅ 데이터..

    Read more
  • [ML] Supervised Learning (μ§€λ„ν•™μŠ΅)

    μ΄λ²ˆμ—λŠ” Supervised Learning (μ§€λ„ν•™μŠ΅)에 λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. Supervised Learning (μ§€λ„ν•™μŠ΅) μ΄λž€?μ§€λ„ν•™μŠ΅μ€ Machine Learning(κΈ°κ³„ν•™μŠ΅)의 ν•œ λΆ„μ•Όλ‘œ, μž…λ ₯ 데이터와 그에 λŒ€μ‘ν•˜λŠ” μ •λ‹΅(λ ˆμ΄λΈ”)을 ν•¨κ»˜ μ œκ³΅λ°›μ•„ ν•™μŠ΅ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€. 이 과정을 톡해 μ•Œκ³ λ¦¬μ¦˜μ€ μƒˆλ‘œμš΄ μž…λ ₯ 데이터에 λŒ€ν•΄ μ •ν™•ν•œ 좜λ ₯을 μ˜ˆμΈ‘ν•  수 μžˆλŠ” λͺ¨λΈμ„ λ§Œλ“­λ‹ˆλ‹€. μ£Όμš”ν•œ νŠΉμ§•λ“€μ— λ°ν•˜μ—¬ 더 μ‚΄νŽ΄λ³΄λ©΄ 1. λ ˆμ΄λΈ”μ΄ μžˆλŠ” 데이터 μ‚¬μš© κ° 데이터 ν¬μΈνŠΈμ—λŠ” μž…λ ₯κ°’κ³Ό 그에 λŒ€μ‘ν•˜λŠ” 정닡이 ν•¨κ»˜ μ œκ³΅λ©λ‹ˆλ‹€.예λ₯Ό λ“€μ–΄, 이미지 λΆ„λ₯˜ μž‘μ—…μ—μ„œλŠ” 이미지(μž…λ ₯)와 κ·Έ 이미지가 λ‚˜νƒ€λ‚΄λŠ” 객체의 이름(좜λ ₯)이 μŒμ„ μ΄λ£Ήλ‹ˆλ‹€.사진과 κ·Έ μ‚¬μ§„μ˜ νƒœκ·Έ(예: "강아지", "고양이")κ°€ 쌍으둜 주어지면, λͺ¨λΈ..

    μ΄λ²ˆμ—λŠ” Supervised Learning (μ§€λ„ν•™μŠ΅)에 λ°ν•˜μ—¬ ν•œλ²ˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€. Supervised Learning (μ§€λ„ν•™μŠ΅) μ΄λž€?μ§€λ„ν•™μŠ΅μ€ Machine Learning(κΈ°κ³„ν•™μŠ΅)의 ν•œ λΆ„μ•Όλ‘œ, μž…λ ₯ 데이터와 그에 λŒ€μ‘ν•˜λŠ” μ •λ‹΅(λ ˆμ΄λΈ”)을 ν•¨κ»˜ μ œκ³΅λ°›μ•„ ν•™μŠ΅ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€. 이 과정을 톡해 μ•Œκ³ λ¦¬μ¦˜μ€ μƒˆλ‘œμš΄ μž…λ ₯ 데이터에 λŒ€ν•΄ μ •ν™•ν•œ 좜λ ₯을 μ˜ˆμΈ‘ν•  수 μžˆλŠ” λͺ¨λΈμ„ λ§Œλ“­λ‹ˆλ‹€. μ£Όμš”ν•œ νŠΉμ§•λ“€μ— λ°ν•˜μ—¬ 더 μ‚΄νŽ΄λ³΄λ©΄ 1. λ ˆμ΄λΈ”μ΄ μžˆλŠ” 데이터 μ‚¬μš© κ° 데이터 ν¬μΈνŠΈμ—λŠ” μž…λ ₯κ°’κ³Ό 그에 λŒ€μ‘ν•˜λŠ” 정닡이 ν•¨κ»˜ μ œκ³΅λ©λ‹ˆλ‹€.예λ₯Ό λ“€μ–΄, 이미지 λΆ„λ₯˜ μž‘μ—…μ—μ„œλŠ” 이미지(μž…λ ₯)와 κ·Έ 이미지가 λ‚˜νƒ€λ‚΄λŠ” 객체의 이름(좜λ ₯)이 μŒμ„ μ΄λ£Ήλ‹ˆλ‹€.사진과 κ·Έ μ‚¬μ§„μ˜ νƒœκ·Έ(예: "강아지", "고양이")κ°€ 쌍으둜 주어지면, λͺ¨λΈ..

    Read more
  • [ML] Model의 ν•™μŠ΅κ³Ό 평가

    λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ˜ ν•™μŠ΅κ³Ό 평가 κ³Όμ •μ—μ„œ μ€‘μš”ν•œ μš”μ†Œλ“€μ— λŒ€ν•΄ λ‹€λ£¨κ² μŠ΅λ‹ˆλ‹€.ν›ˆλ ¨ 데이터와 ν…ŒμŠ€νŠΈ λ°μ΄ν„°μ˜ λΆ„ν• λͺ¨λΈμ˜ μ„±λŠ₯을 μ •ν™•νžˆ ν‰κ°€ν•˜κ³  μΌλ°˜ν™” λŠ₯λ ₯을 ν™•μΈν•˜κΈ° μœ„ν•΄ 데이터셋을 ν›ˆλ ¨ 데이터와 ν…ŒμŠ€νŠΈ λ°μ΄ν„°λ‘œ λΆ„ν• ν•©λ‹ˆλ‹€.ν›ˆλ ¨ λ°μ΄ν„°λŠ” λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€λŠ” 데 μ‚¬μš©λ˜λ©°, ν…ŒμŠ€νŠΈ λ°μ΄ν„°λŠ” ν•™μŠ΅λ˜μ§€ μ•Šμ€ λ°μ΄ν„°μ—μ„œ λͺ¨λΈμ˜ μ„±λŠ₯을 ν‰κ°€ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€.일반적인 λΉ„μœ¨:Train(ν›ˆλ ¨ 데이터) : Test(ν…ŒμŠ€νŠΈ 데이터) = 70:30Train(ν›ˆλ ¨ 데이터) : Test(ν…ŒμŠ€νŠΈ 데이터) = 80:20데이터 λΆ„ν•  방법Train(ν›ˆλ ¨ 데이터) & Test(ν…ŒμŠ€νŠΈ 데이터)λ₯Ό μ–΄λ– ν•œ λΉ„μœ¨λ‘œ λ‚˜λˆ„λŠ”μ§€ μ•Œμ•˜μŠ΅λ‹ˆλ‹€. 그러면 μ–΄λ– ν•œ λ°©λ²•μœΌλ‘œ λΆ„λ¦¬ν• κΉŒμš”?μž„μ˜ λΆ„ν• (Random Split):데이터λ₯Ό λ¬΄μž‘μœ„λ‘œ μ„žμ€ ν›„, μ§€μ •λœ λΉ„μœ¨μ— 따라..

    λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ˜ ν•™μŠ΅κ³Ό 평가 κ³Όμ •μ—μ„œ μ€‘μš”ν•œ μš”μ†Œλ“€μ— λŒ€ν•΄ λ‹€λ£¨κ² μŠ΅λ‹ˆλ‹€.ν›ˆλ ¨ 데이터와 ν…ŒμŠ€νŠΈ λ°μ΄ν„°μ˜ λΆ„ν• λͺ¨λΈμ˜ μ„±λŠ₯을 μ •ν™•νžˆ ν‰κ°€ν•˜κ³  μΌλ°˜ν™” λŠ₯λ ₯을 ν™•μΈν•˜κΈ° μœ„ν•΄ 데이터셋을 ν›ˆλ ¨ 데이터와 ν…ŒμŠ€νŠΈ λ°μ΄ν„°λ‘œ λΆ„ν• ν•©λ‹ˆλ‹€.ν›ˆλ ¨ λ°μ΄ν„°λŠ” λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€λŠ” 데 μ‚¬μš©λ˜λ©°, ν…ŒμŠ€νŠΈ λ°μ΄ν„°λŠ” ν•™μŠ΅λ˜μ§€ μ•Šμ€ λ°μ΄ν„°μ—μ„œ λͺ¨λΈμ˜ μ„±λŠ₯을 ν‰κ°€ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€.일반적인 λΉ„μœ¨:Train(ν›ˆλ ¨ 데이터) : Test(ν…ŒμŠ€νŠΈ 데이터) = 70:30Train(ν›ˆλ ¨ 데이터) : Test(ν…ŒμŠ€νŠΈ 데이터) = 80:20데이터 λΆ„ν•  방법Train(ν›ˆλ ¨ 데이터) & Test(ν…ŒμŠ€νŠΈ 데이터)λ₯Ό μ–΄λ– ν•œ λΉ„μœ¨λ‘œ λ‚˜λˆ„λŠ”μ§€ μ•Œμ•˜μŠ΅λ‹ˆλ‹€. 그러면 μ–΄λ– ν•œ λ°©λ²•μœΌλ‘œ λΆ„λ¦¬ν• κΉŒμš”?μž„μ˜ λΆ„ν• (Random Split):데이터λ₯Ό λ¬΄μž‘μœ„λ‘œ μ„žμ€ ν›„, μ§€μ •λœ λΉ„μœ¨μ— 따라..

    Read more