A A
패스트캠퍼스 환급챌린지 40일차 : 10개 프로젝트로 한 번에 끝내는 MLOps 파이프라인 구현 초격차 패키지 Online 강의 후기
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b)

 

오늘은 MLOps 구축을 위해 주로 사용되는 플랫폼들 중에서 제일 먼저 사용되는 머신러닝 모델의 개발부터 배포까지 전체 수명 주기(LifeCycle)을 관리하는 오픈소스 플랫폼인 MLFlow(02-02~04 실습)을 직접 다뤄보는 환경 구축, 데이터 전처리, 실험 추적 부분을 직접 코드로 구현해보았습니다.

 

MLflow 환경 구축 및 기본 추적 부분에서 라이브러리를 설치하고 로컬호스에 대시보드를 띄워 먼저 실험 공간을 확보하고, 가장 기초적인 mlflow.autolog() 기능을 통해 코드 한줄로 모델의 파라미터와 메트릭을 불러오고, 자동으로 기록하는 방법을 배웠습니다. 데이터 전처리 하는 부분은 단순히 결측치를 평균으로 채우지 않고, 전체 데이터의 중앙값으로 채우겨나, 결측치의 최빈값을 채우는등 데이터 특성에 맞게 보간법을 실습했습니다. 또한 이제 여러 데이터들중에서 수치적인 데이터의 결측치가 너무 많아 새로운 범주로 정의하여 정보를 살렸습니다.

 

그리고 이제 단순히 결측치르 평균으로 채우지 않고, 전체 데이터의 중앙값으로 채우거나, 호칭과 같은 데이터를 추출하여 새로운 피처를 만들고, 이를 수치형 데이터로 변환하여 사용했습니다. 또한 연속형 변수인 나이, 요금을 구간화 하여 모델이 패턴을 더 잘 학습 하도록 했습니다. 그 후, 모델을 학습시키고 어려 함수들을 사용해 모델에 정확도, 학습 결과를 나타내는 여려 평가 지표를 명시적으로 기록, 최적의 모델 성능을 찾기 위해 최적의 조합을 탐색하여 찾아내는 GridSearch 과정을 수행하고, 이걸 기록하여 어떠한 조합이 최적의 성능을 냈는지 시각적으로 비교하는 과정을 거쳤습니다.

 

여기서 다시 한번 데이터 전처리의 디테일로 모델의 성능을 결정하고, 그 과정을 MLFlow를 통해서 투명하게 기록, 보여준다는 점이 신기하고 흥미로웠습니다.

 

1개 클립 수강 인증 사진 1장, 학습 인증샷 1장
오늘자 날짜 + 공부 시작, 종료 시각 인증 사진