본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. (https://fastcampus.info/4oKQD6b)
오늘은 MLOps 구축을 위해 주로 사용되는 플랫폼들 중에서 AWS에서 직접 제공하는 완전 관리형 서비스, Fully Managed 서비스인 Amazon SageMaker에서 라벨링 작업을 할당하고, data wrangler를 활용해서 코드 없이 데이터 분석, Feature Engineering을 해보는 내용에 집중해서 실습을 해보았습니다.
제일 크게 느낀것은, 이제 고품질의 데이터를 만드는것이 매우 중요 하다고 느꼈습니다. 직접 모델 개발을 위해 활용되는 데이터를 처리하는 과정에서 SageMaker Ground Truth는 대규모의 데이터셋을 관리하고, 구축하는데 라벨링 작업을 효율적으로 관리할 수 있는 좋은 서키스라는 것을 느꼈습니다.
이떄, 라벨링 작업을 수행할 인력을 외부 업체 고용, 내부 팀들 여러 인력을 지정해서 할 수 있으며, 초기에는 사람이 라벨링 하지만, 어느정도의 일정 데이터가 쌓이면 모델이 알아서 자동으로 학습하여 라벨링을 하는 좋은 기능이 있다는 것도 알게 되었습니다. 또항 이때, 확인이 없는 데이터는 사람이 직접 관리하고 작업하는것을 보면서, 데이터 구축 작업에 드는 시간을 줄이면서 업무의 효율성도 추구할 수 있게 되었습니다.
또한 이제, Data Wrangler를 활용하여 복잡한 파이썬, Pandas 코드를 작성할 필요 없이, GUI 환경에서 데이터를 분석하고 Feature Engineering을 할수 있는 좋은 도구가 있다는 것을 알게 되었습니다. 또한 이제 결측치 처리, 인코딩, 스케일링 등의 여러 작업들을 단순 클릭만으로 수행하여 데이터 플로우로 관리, 그리고 개발한 파이프라인을 export하여 바로 적용할수 있다는 점이 매우 인상 깊었고, 회사 업무에서 적극적으로 나중에 MLOps 환경을 구축할 때 AWS 인프라 내에 구축해서 우리 제품에 활용해 봐야 겠다는 생각을 했습니다.



