
이번 시간에는 네이버 클라우드 플랫폼인 NCP에서 TensorFlow 서버를 생성하는 방법을 알아보려고 한다. 이를 통해 클라우드 환경에서 프로젝트에서 활용했던 예측모델을 구현해보려고 한다. 서버 생성 먼저 아래 링크를 통해 NCP로 이동해 콘솔을 클릭해 줍니다(회원가입이 안되어 있을경우 진행해 줍니다) https://www.ncloud.com/ 리전을 한국(본인의 지역)으로 설정합니다. Platform을 VPC로 설정합니다(기존 고객의 데이터센터 네트워크와 유사한 구현이 가능하므로 선택했습니다) Services > Compute > Server를 선택합니다. 서버 생성을 클릭합니다. 본인의 사용 목적에 따라 디스크 크기, 서버타입을 선택하고 나머지는 표시된대로 설정합니다. 서버 설정을 진행해 줍니다. ..

이번 시간에는 Spark의 정형화 API에 대해 다루어보고 그 과정에서 여러가지 문법들도 알아보려고 한다. 교재구매 블로그 내용은 해당 교재의 내용을 기반으로 한다. 사용될 데이터셋은 해당 교재의 깃허브 저장소에서 다운 받는다. 이번 시간에는 chapter 03장을 살펴볼 것이다. https://github.com/databricks/LearningSparkV2 https://www.yes24.com/Product/Goods/21667835 러닝 스파크 - 예스24 창시자와 커미터가 직접 저술한 스파크 입문서로 스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 www.yes24.com 사용환경 Google Cola..

이번 시간에는 Google Colab상에서 Spark를 실행하는 방법을 알아보려고 한다. 교재구매 블로그 내용은 해당 교재의 내용을 기반으로 한다. 사용될 데이터셋은 해당 교재의 깃허브 저장소에서 다운 받는다. 이번 시간에는 chapter 02장을 살펴볼 것이다. https://github.com/databricks/LearningSparkV2 https://www.yes24.com/Product/Goods/21667835 러닝 스파크 - 예스24 창시자와 커미터가 직접 저술한 스파크 입문서로 스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 www.yes24.com 구글 드라이브 연동 먼저 구글 드라이브를 연동해..
저번 글에서 정규성과 등분산성의 불만족으로 통계분석 파트에서는 종속변수를 범주형 데이터로 분할하여 로지스틱 회귀분석을 진행하기로 결론을 내렸다. 이번 글에서는 로지스틱 회귀 분석을 진행하며 겪었던 고찰과정을 적어보려고 한다. Data leakage 정의 및 방지책 학습 데이터와 테스트 데이터를 나누어 모델을 학습시킬 때 데이터가 유출되어 학습 데이터 외의 정보로 모델이 학습되는 것을 Data leakage라고 합니다. 이로 인해 모델의 성능지표가 왜곡되어 나타나고 모델의 일반화가 저하되어 실제 현장에서 사용될 때 문제가 생길 수 있습니다. 이러한 오류를 방지하기 위해서는 학습 데이터에 모델을 활용하여 예측할 시점에 해당 정보를 사용할 수 있는지 점검한 상태에서 1번과 2번 방법을 통해 Data leaka..
이번 시간에는 마케팅에서 주로 활용되는 코호트 분석과 RFM을 SQL을 통해 알아보려고 한다. 교재 구매 아래 교재내용을 토대로 진행하겠습니다. 기본 DB설정은 교재의 내용을 참고하시기 바랍니다. https://www.yes24.com/Product/Goods/86544423 SQL로 맛보는 데이터 전처리 분석 - 예스24 SQL을 이용하여 현업에서 자주 사용되는 KPI 지표를 직접 추출해본다데이터 분석을 하기 위해서는 데이터베이스에 존재하는 데이터를 직접 추출할 수 있어야 한다. SQL은 우리가 데이터베이스에 www.yes24.com 코호트 분석 코호트 분석이란 사용자를 공통된 특성을 가진 그룹으로 나누고 시간 흐름에 따른 사용자 행동을 수치화해 분석하는 기법을 말한다. 이때 주로 리텐션, 구매 패턴,..
SQL 쿼리의 문법 순서는 FROM / WHERE / GROUP BY / HAVING / SELECT / ORDER BY 순으로 진행된다. 따라서 SELECT절에서 쓰인 Ailas는 ORDER BY절에서만 사용되거나 서브쿼리를 활용하여 사용되어야 한다. 이 차이를 예제를 통해 확인해 보겠다. 교재 구매 아래 교재내용을 토대로 진행해보겠습니다. 기본 DB설정은 교재의 내용을 참고하시기 바랍니다. https://www.yes24.com/Product/Goods/86544423 SQL로 맛보는 데이터 전처리 분석 - 예스24 SQL을 이용하여 현업에서 자주 사용되는 KPI 지표를 직접 추출해본다데이터 분석을 하기 위해서는 데이터베이스에 존재하는 데이터를 직접 추출할 수 있어야 한다. SQL은 우리가 데이터베이..

저번 글에서 잔차분석의 결과로 정규성과 등분산성이 만족되지 않는 것을 확인했으므로 이번 글에서는 이러한 가정을 만족하기 위한 다양한 방법들을 시도해보고, 다시 한번 잔차분석을 통해 가정이 만족되는지 확인해 보겠습니다. IQR기준으로 극단값 제거 IQR기준으로 lower bound = Q1 - (1.5 * IQR), upper bound = Q3 + (1.5 * IQR)로 하여 경계선을 넘어가는 값들을 제거해줍니다. 선형성 기존의 결과보다 선형성이 더 개선된 모습을 볼 수 있고, 대부분의 예측값에서 선형성을 만족한다고 판단한다. 정규성 statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다. S..

프로젝트에서는 머신러닝에 앞서 PCC와 Regression analysis등의 통계분석을 통해 머신러닝에 넣어줄 변수를 선정하기로 하였습니다. PCC와 VIF를 통해 변수를 1차적으로 선택하고 선택한 변수들로 Regression analysis를 수행하여 p-value값을 기준으로 유의한 변수를 선정합니다. PCC 종속변수는 전세가인 JS_Price로 하고 독립변수들과의 PCC를 계산하였습니다. 독립변수 중 범주형 데이터가 존재하여 처음에는 원핫인코딩을 진행하였다가 독립변수의 수가 너무 많아져 타겟인코딩으로 대체하여 독립변수를 인코딩 해주었습니다. # 결과를 저장할 DataFrame 생성 result_df = pd.DataFrame(columns=['Column_Name', 'PCC', 'p-value'..