
이번 시간에는 Google Colab상에서 Spark를 실행하는 방법을 알아보려고 한다. 교재구매 블로그 내용은 해당 교재의 내용을 기반으로 한다. 사용될 데이터셋은 해당 교재의 깃허브 저장소에서 다운 받는다. 이번 시간에는 chapter 02장을 살펴볼 것이다. https://github.com/databricks/LearningSparkV2 https://www.yes24.com/Product/Goods/21667835 러닝 스파크 - 예스24 창시자와 커미터가 직접 저술한 스파크 입문서로 스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 www.yes24.com 구글 드라이브 연동 먼저 구글 드라이브를 연동해..
이번 글에서는 마케팅의 주요 지표인 Retention Rate(재구매율)와 Churn Rate(이탈율)을 SQL로 파악해보려고 한다. 교재 구매 아래 교재내용을 토대로 진행해보겠습니다. 기본 DB설정은 교재의 내용을 참고하시기 바랍니다. https://www.yes24.com/Product/Goods/86544423 SQL로 맛보는 데이터 전처리 분석 - 예스24 SQL을 이용하여 현업에서 자주 사용되는 KPI 지표를 직접 추출해본다데이터 분석을 하기 위해서는 데이터베이스에 존재하는 데이터를 직접 추출할 수 있어야 한다. SQL은 우리가 데이터베이스에 www.yes24.com Retention Rate(재구매율) 아래 코드를 통해 각 나라의 연도별 재구매율을 알 수 있다. -- 국가 거주 구매자 중 다음..