본문 바로가기
반응형

ML | DL5

AutoML_Alex 라이브러리 설명 여전히 DACON문제를 풀면서 AutoML을 찾아보던 중 매우 유용한 라이브러리를 찾게 되었습니다. https://dacon.io/competitions/official/235736/codeshare/2870 글에서 처음 autoML을 알게 되었고 더 다양한 기능이 있어 한번 소개하고자합니다. 1. 다양한 머신러닝 모델 구현 해당 데이콘 코드 공유에서는 LGBM을 사용해서 AutoML을 사용했는데, sklearn에서 지원하는 모델과 XGboost, Catboost까지도 마찬가지로 AutoML을 통해 최적화하여 사용할 수 있습니다. 또한, AutoML 모델을 사용할 수 있는데요. 이의 소스코드를 확인하면 아래 코드 처럼 되어있습니다. from automl-alex import AutoMLRegressor,.. 2021. 7. 15.
RandomForest, XGBoost, LGBM, CatBoost뭐가 다를까? Dacon 머신러닝 대회를 준비하면서 예측모델을 만드는데, 앙상블도 하고 스태킹도 하는데 주로 RandomForest, XGBoost, LGBM, CatBoost를 성능이 잘나와서, 사용하고 있었습니다. 이 모델들이 어떻게 구현되어 있고 작동하는지 좀더 자세히 알아보고자 하며, 많은 초보 개발자분들은 이것이 어떻게 작동하는지 자세히 이해지 못했을 것입니다. 원리보다는 사용법과 성능만 알고 있을 거라 생각됩니다. 잘 알고 쓴다면 하이퍼파라미터와 성능을 높이는 방법과 시간 낭비를 줄일 수 있을 것으로 생각됩니다. RandomForest 의사결정나무(DecisionTree)모델을 기반으로 만들어진 모델입니다. 의사결정나무(DecisionTree)는 다들 아시다시피 어떠한 데이터가 있으면 특정 기준으로 (예 /.. 2021. 6. 9.
ALS 추천시스템(Implicit 라이브러리) 제가 얼마전에 추천시스템 만드는 과제를 수행하면서 공부했던 ALS 모델의 라이브러리 Implicit의 소스코드를 보면서 소개해 보겠습니다. * 받은 과제는 고객의 클릭로그 기반 데이터로 협업필터링 모델을 작성하는 것이었습니다. ALS모델을 처음 공부한건 T-아카데미의 유튜브 영상이었습니다. https://www.youtube.com/watch?v=TFbTU9VG3is&t=1848s 위 영상을 보시면 SGD가 무엇이고, ALS가 무엇인지 쉽게 알 수 있습니다. Implicit 라이브러리의 소스코드를 좀 더 자세히 분해해서 어떤 식으로 모델이 학습되고 어떤식으로 추천을하는지 공유하겠습니다. 소스코드의 깃허브는 https://github.com/benfred/implicit 에 있습니다. from implic.. 2021. 6. 1.
신용카드 사용자 연체 예측 AI 경진대회 https://dacon.io/competitions/official/235713/overview/description 신용카드 사용자 연체 예측 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 최근 데이콘에서 신용카드 연체 예측 AI 경진대회를 참가했는데요. 성적은 0.69965로 314위(상위 약 50%)로 마무리 했습니다. 이번에 준비 하면서 순위권 참가자와 저희 팀과의 차이점이 무엇인지 그리고 배웠던 내용들을 공유하려고 합니다. 저희는 Git으로 작업을 했고 master branch에서 pycaret.ipynb가 최고 점수를 받았습니다. https://github.com/ICJH-DACON/Credit_card_DACON ICJH-DACON/Cre.. 2021. 5. 27.
프로그래머스 Dev-Matching 머신러닝 개발자 - 아직 공부가 부족하다 2021/05/23 프로그래머스에서 Dev-Matching 머신러닝 개발자 챌린지에 도전했습니다. 지금까지 나름 많이 공부했다고 생각했는데 아직 많이 부족하다는 생각을 했습니다. 문제는 단순히 이런 그림 데이터를 갖고 개, 코끼리, 기린, 기타, 말, 집, 사람으로 분류하는거였습니다. 제가 사용한 방법은 ResNet으로 사전학습된 모델로 특징 추출만하고 추출된 데이터로 DNN을 구현하는거였습니다. 물론 점수는 78.571점이라는 낮은 점수가 나왔고, 100점이신분들도 많아서 좋은 코드도 많습니다. 하지만, 이 방식이 매우 독특하고 컴퓨터 사양이 안좋은 환경에서는 적합하다고 생각되어 코드를 공유합니다. 데이터를 ImageDataGenerator에 넣습니다. (사실 데이터 양이 얼마 안돼서 그냥 glob로 .. 2021. 5. 25.