Hello world!

deep learning 6

TFX + airflow 연동

Airflow란? 2015년도 Airbnb에서 배포. (language: Python) airflow는 복잡한(ex.DAG) workflow의 스케쥴링 및 실행을 관리하는 솔루션 ex) User Interface를 통하여 schedule과 모니터링을 할 수 있음. airflow는 현재 가장 인기 있는 orchestration, 기준(github stars) 4. DAG(Directed Acyclic Graph) Airflow는 파이프라인을 DAG 형태로 관리 할 수 있다. 즉, 복잡한 workflow도 관리할 수 있다. 5.Batch processing(o), streaming (x) 메시지 애플리케이션 같은 streaming process에는 적합하지 않다. 오히려 kafka(low latency)에 ..

MLOps 2022.07.27

TFX components

#TFX 장점: 파이프라인을 실행하기 위해 코드 작성이 필요 없다(예외: feature engineering, modeling) 파이프라인을 위한 components가 모두 미리 구현 되어있다. Components 설명 TFX 파이프라인의 10가지 components들의 기능을 설명하고자 한다. ExampleGen: 데이터를 TFX 파이프라인의 component가 읽을 수 있도록 변환해준다. StatisticsGen: 데이터셋의 통계 분석 SchemaGen: 데이터 셋의 통계를 통해 스키마 자동 생성 (추후에 사용자가 수정) ExampleValidator: 새로운 데이터가 들어왔을 때 StatisticsGen의 결과를 이용하여 데이터 검증(이상치, skewness, 등 파악) How?: 아직은 잘모르겠다..

MLOps 2022.07.27

Fashion recommendation system Review paper

목적: fashion 도메인에서 사용되는 추천시스템을 알아보고자 함 개인적인 결론: 삽질, image 자체를 학습시키는 논문들 위주. 유사성을 구하기 위해서 정보를 vector형식으로 만든다. 즉, 해당 리뷰에 담긴 논문들은 CNN으로 이미지를 vector화 시켜서 유사성을 구하게 된다. 하지만, 필자는 텍스트( 패션아이템 정보 )를 사용해서 추천시스템을 구축해야한다. 따라서, 방향성과 맞지않는 논문이다. Deldjoo, Yashar, et al. "A review of modern fashion recommender systems." arXiv preprint arXiv:2202.02757 (2022). 선택 이유: 패션 도메인에 국한된 추천 시스템에 대한 리뷰 페이퍼 발표 목적: 적합한 모델 찾기 위..

TFX ML Metadata

ML Metadata란? workflow에 관한 것들을 기록 및 트래킹 해주는 라이브러리이다. 따라서, 예시로 아래와 같은 질문을 Metadata로 부터 얻을 수 있다. Which dataset did the model train on? What were the hyperparameters used to train the model? Which pipeline run...... 그림을 더 자세히 설명해보자. 1. TFX pipeline(workflow)가 실행되면 각 components 별 Input/Ouput/meta 정보 들이 나오게 되는데, 이를 MLMD library를 통해서 데이터베이스(MetadataStore)에 저장되게 된다. 2. 그림1에서 볼 수 있듯이 Metadata Store에는 Co..

MLOps 2022.05.03

Data processing cycle

필수적이며 가장 기본적인 데이터 Processing 과정(EDA포함)을 서술함. Step1. 데이터 종류 파악 [설명 링크](A. https://brunch.co.kr/@bef6d2c23e1c413/17 데이터 종류 파악이 가장 중요하다. 이를 제대로 파악을 해야지 나중에 feature engineering이나 normalization을 할 때 현명하게 수행할 수 있다. 예를 들면 categorical 과 numeric variables들이 같이 존재한다면 차원축소 할때 "NMF(Non-negative Matrix Factorization) 기법을 써야겠다" 라는 연구 계획을 잡을 수 있다. 다시 말하자면, 데이터 종류에 따라 차원 축소의 방식들이 다르다는 것이다. Step2. 분포도 확인 각 Featu..

ML pipeline 이란?

머신러닝과 딥러닝에서 가장 중요한 지표는 "성능"이라는 것은 누구도 반박할 수 없을 것이다. 그렇다면 모델의 성능만 높이면 머신러닝 프로젝트는 끝났다고 할 수 있을 것인가? 그렇지 않다. 머신러닝 프로젝트에서 "성능"은 필수 구성품중 하나이지 모든 것을 커버하지 않는다. 이 말은 머신러닝 프로젝트에는 Data load, Preprocessing, EDA, Data Split, Model training, Model validation, Model serving, API service, Monitoring, etc .. 등 굉장히 많은 작업들이 필요하다. 심지어 시스템의 보안, 안전성, lag 처리, 빅데이터 관리 등 수 많은 요소들이 존재한다. 즉, 모델을 학습시키는 일련의 과정(pipeline)의 중요..

MLOps 2022.04.18