이 블로그를 구독하시겠습니까?
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 학습 후기오늘은 Chapter Part.2 머신러닝 상품화 내용에서 직접 항공기 지연 예측을 실습해보는 내용을 해보면서 모델을 구축하는 전체 과정을 end to end로 해보면서 주로 데이터의 불균형, imbalance 현상을 해결하려고 하는데 초점을 맞추었습니다. 단계를 하나하나 정리해보면서 생각해보면 데이터 탐색 및 전처리 부분에서는 10만건의 미국의 항공 데이터를 로드하고, 다양한 변수의 분포를 확인합니다. 그 다음 지연된 항공편이 정상적인 운항보다 적은 클래스 불균형 현상이 일어남을 확인했습니다. 그래서 모델에 무작정 많은 데이터를 넣지않고, 통계적으로 유믜미한 변수들만 ..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 학습 후기오늘은 Chapter Part.2 머신러닝 상품화 내용에서 이제 머신러닝 개발 여정 총정리. 일종의 지금까지 공부했던 내용을 다시한번 정리해봄으로써 머신러닝 모델의 개발 여정을 9단계로 정리하여 보았습니다. 정리해보면, 첫번째는 데이터 준비: 전체 데이터의 특성을 반영하는 샘플링 기법과 지도, 준지도, 자기시도 학습등 상황에 맞는 라벨링 전략을 잡아야 합니다. 그후 현실, 제품에 사용되는 데이터들의 문제점인 Class Imbalance 문제를 해결하기 위해서 Resampling(SMOTE)나 가중치 조정을 수행하고, 노이즈나 이상치를 처리하는 Data Cleansing을..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 학습 후기오늘은 Chapter Part.2 머신러닝 상품화 내용에서 HR Data Classification을 해보는 실습을 진행하였습니다. 전체적인 모델링 과정을 다루면서 지금까지 공부하고 스터디 했던 내용을 직접 해보는것에 신기하고 흥미를 많이 느꼈습니다. 해본것은 주로 HR 데이터를 활용해서 퇴사 예측에 대한 모델링을 해보는 것에 대해서 전체 과정을 다루었습니다. 크게 데이터 탐색 & 전처리 부분에서는 학력, 연차등 숫자로 되어있지만 실제로 범주형 의미를 가지는 변수들을 식별하여 object 타입으로 변환하였습니다. 또한 타겟 변수인 퇴사 여부의 클래스 불균형을 확인하였습니..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 학습 후기오늘은 Chapter Part.2 머신러닝 상품화 내용(Ensemble & AutoML)까지 공부 했습니다. 주요하게 인지하거나 배웠던 부분은 이제 앙상블이랑 AutoML 같은 경우에는 머신러닝의 성능을 극대화 하고 개발 효율성을 높이는 전략이라고 인지하였습니다. 이제, 생각해보면 앙상블 같은 경우는 집단 지성? 이런 비슷한 개념이라고 생각 할 수는 있지만 여러개의 머신러닝 모델들을 결합해서 단일 모델을 쓰는 것보다는 더 강력하고 안정적인 성능을 내는 기법이라고 볼수도 있을것 같습니다. 이제 앙상블에서도 여러 기법이 사용되는데 차근차근히 설명해보면?- 배깅: 데이터를 랜..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 학습 후기오늘은 Chapter Part.2 머신러닝 상품화 내용(Model Selection)까지 공부 했습니다. 주요하게 인지하거나 배웠던 부분은 이제 주어진 데이터와 문제에 대해서 가장 적합한 머신러닝 알고리즘을 결정하는 과정이라고 합니다. 이제 머신러닝 알고리즘 중에서 수 많은게 있지만 최적의 하나를 고르기 위해서 여러가지 고러해야할 점을 배운 것 같습니다. 일단 문제 유형 파악: 해결하려는 문제가 지도학습, 비지도학습, 강화학습 인지 명확히 정의를 하는것이 필요합니다. 그 다음 데이터 특성을 만약 분석을 한다고 하면? 데이터의 크기, 차원, 그리고 데이터 타입을 고려해야 ..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 학습 후기오늘은 Chapter Part.2 머신러닝 상품화 내용(Hyperparameter Tuning)까지 공부 했습니다. 주요하게 관심가지면서 배웠던 부분은 모델이 학습하면서 스스로 배울수 없는 설정값들, 예를 들어서 Learning rate, Hidden Layer를 최적화 하여 모델 성능을 극대화 하는 과정이라고 합니다. 이때 모델 파라미터는 데이터로 부터 학습되는 값이라면, 하이퍼파라미터는 사용자가 직접 설정을 해야한다는걸 깨달았습니다. 대표적인 튜닝 기법 3가지가 있다고 하면서 정리해보면1. Grid Search: 이건 사용자가 직접 지정한 범위의 Hyperparame..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 학습 후기오늘은 Chapter Part.2 머신러닝 상품화 내용(Model Training)까지 공부 했습니다. 주요하게 인지하거나 배웠던 부분은 이제 모델을 훈련하는 과정은 준비된 데이터를 사용하여 머신러닝 모델이 패턴을 학습하고 예측 성능을 최적화 하는 과정이라고 인지를 했는데, 구제척으로 모델이 이러한 과정을 거쳐서 학습이 되고 결론을 낸다는것이 신기했습니다. 크게 이 과정은 데이터 분할, 모델선택, 하이퍼파라미터 튜닝, 그리고 실제 훈련 루프로 구성된다는 점을 깨달았습니다. 데이터 분할: 데이터를 훈련, 검증, 평가 세가지 세트로 나누는 것이 필수적이라고 알려주었습니다.-..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 학습 후기오늘은 Chapter Part.2 머신러닝 상품화 내용(Feature Engineering)을 실습했습니다. 이 부분은 ML모델이 데이터를 올바르게 이해할 수 있도록 실제 데이터를 가지고 Feature Engineering을 실습하는 내용입니다. 크게 데이터 탐색 & 전처리, 변수 선택, 엔지니어링 & 샘플링. 3개 부분으로 정리해 보겠습니다. 데이터 탐색 및 전처리- 데이터 로드 및 타입 변환: csv 데이터를 로드한 후, 숫자형으로 보이지만 실제로는 범주형인 변수들을 식별하여 object type으로 변환.- 결측치 및 중복확인: 데이터의 품질을 확인하기 위해 중복된..