이 블로그를 구독하시겠습니까?
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 오늘은 MLOps 구축을 위해 주로 사용되는 플랫폼들 중에서 AWS에서 직접 제공하는 완전 관리형 서비스, Fully Managed 서비스인 Amazon SageMaker에서 Model Training, Estimator 설정, Training Job를 보고 확인해 보는 실습을 해보았습니다. 그리고 AWS의 클라우드 컴퓨팅 자원을 필요할때만 호출하여 사용하는 본격적인 MLOps 방식을 다루었습니다. 먼저, SageMaker Estimator에 대해서 한번 알아보았는데, 코드 형태로 머신러닝 학습에 필요한 모든 인프라와 환경 설정을 추상화한 객체라고 생각했습니다. 어떠한 프레임워크..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 오늘은 MLOps 구축을 위해 주로 사용되는 플랫폼들 중에서 AWS에서 직접 제공하는 완전 관리형 서비스, Fully Managed 서비스인 Amazon SageMaker에서 로컬환경에서 코드를 실행하는 것이 아닌, SageMaker 에서 활용할 수 있는 여러 컴퓨팅자원을 활용하여 본격적인 모델 학습을 수행하고, 그 과정을 관리하는 방법을 배웠습니다. 우리가 머신러닝 학습 과정에서 발생하는 수많은 변수들과 결과지표, 그리고 생성된 모델의 Artificat를 자동으로 기록하고 시각화하기 위해서 활용을 해야하는데, MLflow의 Tracking 기능과 유사하지만, AWS 생태계와 어..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 오늘은 MLOps 구축을 위해 주로 사용되는 플랫폼들 중에서 AWS에서 직접 제공하는 완전 관리형 서비스, Fully Managed 서비스인 Amazon SageMaker에서 라벨링 작업을 할당하고, data wrangler를 활용해서 코드 없이 데이터 분석, Feature Engineering을 해보는 내용에 집중해서 실습을 해보았습니다. 제일 크게 느낀것은, 이제 고품질의 데이터를 만드는것이 매우 중요 하다고 느꼈습니다. 직접 모델 개발을 위해 활용되는 데이터를 처리하는 과정에서 SageMaker Ground Truth는 대규모의 데이터셋을 관리하고, 구축하는데 라벨링 작업을..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 오늘은 MLOps 구축을 위해 주로 사용되는 플랫폼들 중에서 AWS에서 직접 제공하는 완전 관리형 서비스, Fully Managed 서비스인 Amazon SageMaker를 활용하기 위해 첫 단계인 데이터를 준비하고 정제하는 과정을 통해 과정을 효율화 하는 내용에서 데이터를 저장하고, 라벨링 작업을 할당하는 내용까지 실습해 보았습니다. 일단, 먼저 고품질의 학습 데이터가 없으면 아무리 좋은 모델이여도 의미가 없습니다. 데이터를 수집, 정제, 그리고 정확한 라벨링 작업이 선행이 되어야 하고, 이건 매우 중요하다고 생각했습니다. 그러면서 SageMaker에 대한 도메인, 기초 환경..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 오늘은 MLOps 구축을 위해 주로 사용되는 플랫폼들 중에서 기존의 서버를 구축하는 on-premise 방식이나, ec2 인스턴스에 직접 구축하는 방식이 아닌, AWS에서 직접 제공하는 완전 관리형 서비스, Fully Managed 서비스인 Amazon SageMaker를 활용하기 위한 환경 구축 내용을 다루었습니다. 먼저 내용을 한번 훍어보면, AWS는 신규 가입자에게 12개월간 무료 서비스를 제공하는 프리티어 제도를 운영합니다. 특히 이번에 활용하는 SageMaker는, 가입 후, 2개월 간의 노트북 인스턴스를 제공받아 사용할수 있어 모델의 학습 및 실험에 최적화된 환경을 ..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 오늘은 MLOps 구축을 위해 주로 사용되는 플랫폼들 중에서 기존의 서버를 구축하는 on-premise 방식이나, ec2 인스턴스에 직접 구축하는 방식이 아닌, AWS에서 직접 제공하는 완전 관리형 서비스, Fully Managed 서비스인 Amazon SageMaker에 대해서 한번 개념과 활용법에 대해서 알아보는 시간이였습니다. 한번 SageMaker에 대해서 한번 정리해보면, 머신러닝모델의 개발, 훈련, 배포의 전 과정을 단일 호나경에서 제공하는 통합플랫폼입니다. 기존의 MLOps 관리를 의해서 서버를 올려서 일일이 관리했던것에 비례해서, 인프라 관리 부분은 AWS에 위임하..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 오늘은 MLOps 구축을 위해 주로 사용되는 플랫폼들 중에서 제일 먼저 사용되는 머신러닝 모델의 개발부터 배포까지 전체 수명 주기(LifeCycle)을 관리하는 오픈소스 플랫폼인 MLFlow(02-07) 실습을 해보면서 end-to-end 실습을 해본 내용을 토대로 한번 복습해 보는 시간을 가졌습니다. 한번 정리해보면, 먼저 데이터를 전처리 하고 Hyperopt와 같은 도구를 사용해 하이퍼파라미터를 튜닝하는 과정에서 mlflow.log_param과 log_metric을 통해 수많은 실험의 인과관계를 기록했습니다. 그리고 모델을 수십번을 테스트 해보고, 단순히 정확도가 높은 모델..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b) 오늘은 MLOps 구축을 위해 주로 사용되는 플랫폼들 중에서 제일 먼저 사용되는 머신러닝 모델의 개발부터 배포까지 전체 수명 주기(LifeCycle)을 관리하는 오픈소스 플랫폼인 MLFlow(02-07) 실습을 해보면서 MLflow를 활용한 전체 end-to-end 프로세스를 실습해 보았습니다. 일반적으로 먼저 데이터 전처리, 분석을 해보았을떄, 원본 데이터에는 신용 불량을 판단하는 라벨이 없는 대신, 신용의 연체 기록을 분석하여, 60일 이상 연체된 기록이 있는 고객을 나쁜 고객으로 정의한다. 라는 비즈니스 로직을 코드로 구현해 타겟 변수를 직접 만들어 적용했습니다. 그리고 고..