
이번 시간에는 네이버 클라우드 플랫폼인 NCP에서 TensorFlow 서버를 생성하는 방법을 알아보려고 한다. 이를 통해 클라우드 환경에서 프로젝트에서 활용했던 예측모델을 구현해보려고 한다. 서버 생성 먼저 아래 링크를 통해 NCP로 이동해 콘솔을 클릭해 줍니다(회원가입이 안되어 있을경우 진행해 줍니다) https://www.ncloud.com/ 리전을 한국(본인의 지역)으로 설정합니다. Platform을 VPC로 설정합니다(기존 고객의 데이터센터 네트워크와 유사한 구현이 가능하므로 선택했습니다) Services > Compute > Server를 선택합니다. 서버 생성을 클릭합니다. 본인의 사용 목적에 따라 디스크 크기, 서버타입을 선택하고 나머지는 표시된대로 설정합니다. 서버 설정을 진행해 줍니다. ..

이번 시간에는 Spark의 정형화 API에 대해 다루어보고 그 과정에서 여러가지 문법들도 알아보려고 한다. 교재구매 블로그 내용은 해당 교재의 내용을 기반으로 한다. 사용될 데이터셋은 해당 교재의 깃허브 저장소에서 다운 받는다. 이번 시간에는 chapter 03장을 살펴볼 것이다. https://github.com/databricks/LearningSparkV2 https://www.yes24.com/Product/Goods/21667835 러닝 스파크 - 예스24 창시자와 커미터가 직접 저술한 스파크 입문서로 스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 www.yes24.com 사용환경 Google Cola..

이번 시간에는 Google Colab상에서 Spark를 실행하는 방법을 알아보려고 한다. 교재구매 블로그 내용은 해당 교재의 내용을 기반으로 한다. 사용될 데이터셋은 해당 교재의 깃허브 저장소에서 다운 받는다. 이번 시간에는 chapter 02장을 살펴볼 것이다. https://github.com/databricks/LearningSparkV2 https://www.yes24.com/Product/Goods/21667835 러닝 스파크 - 예스24 창시자와 커미터가 직접 저술한 스파크 입문서로 스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 www.yes24.com 구글 드라이브 연동 먼저 구글 드라이브를 연동해..
저번 글에서 정규성과 등분산성의 불만족으로 통계분석 파트에서는 종속변수를 범주형 데이터로 분할하여 로지스틱 회귀분석을 진행하기로 결론을 내렸다. 이번 글에서는 로지스틱 회귀 분석을 진행하며 겪었던 고찰과정을 적어보려고 한다. Data leakage 정의 및 방지책 학습 데이터와 테스트 데이터를 나누어 모델을 학습시킬 때 데이터가 유출되어 학습 데이터 외의 정보로 모델이 학습되는 것을 Data leakage라고 합니다. 이로 인해 모델의 성능지표가 왜곡되어 나타나고 모델의 일반화가 저하되어 실제 현장에서 사용될 때 문제가 생길 수 있습니다. 이러한 오류를 방지하기 위해서는 학습 데이터에 모델을 활용하여 예측할 시점에 해당 정보를 사용할 수 있는지 점검한 상태에서 1번과 2번 방법을 통해 Data leaka..

이번 글에서는 아마존 AWS 서버에 접속하고 가상환경을 통해 코드를 실행하는 방법을 작성해보겠습니다. 1. AWS 서버 실행 먼저 아래의 링크로 접속해 로그인을 해줍니다. 이를 위한 AWS계정은 미리 구비되어 있어야 합니다. https://console.aws.amazon.com/console/home 로그인 후에 우측 상단의 지역정보를 오사카로 변경해줍니다. 변경 후, 검색창에 EC2를 검색하여 클릭해 줍니다. 그 후 화면 중앙에 보이는 인스턴스를 클릭하여 이동해 줍니다. 실행시키길 원하는 서버를 마우스 우클릭하고, 인스턴스 시작을 해줍니다. 최종확인을 위해 우측 상단의 새로고침을 클릭하여 인스턴스 상태가 실행중인지 확인합니다. 2. 서버 접속 원격으로 서버에 접속하기 위해 PuTTY를 활용하겠습니다...

저번 글에서 잔차분석의 결과로 정규성과 등분산성이 만족되지 않는 것을 확인했으므로 이번 글에서는 이러한 가정을 만족하기 위한 다양한 방법들을 시도해보고, 다시 한번 잔차분석을 통해 가정이 만족되는지 확인해 보겠습니다. IQR기준으로 극단값 제거 IQR기준으로 lower bound = Q1 - (1.5 * IQR), upper bound = Q3 + (1.5 * IQR)로 하여 경계선을 넘어가는 값들을 제거해줍니다. 선형성 기존의 결과보다 선형성이 더 개선된 모습을 볼 수 있고, 대부분의 예측값에서 선형성을 만족한다고 판단한다. 정규성 statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다. S..

프로젝트에서는 머신러닝에 앞서 PCC와 Regression analysis등의 통계분석을 통해 머신러닝에 넣어줄 변수를 선정하기로 하였습니다. PCC와 VIF를 통해 변수를 1차적으로 선택하고 선택한 변수들로 Regression analysis를 수행하여 p-value값을 기준으로 유의한 변수를 선정합니다. PCC 종속변수는 전세가인 JS_Price로 하고 독립변수들과의 PCC를 계산하였습니다. 독립변수 중 범주형 데이터가 존재하여 처음에는 원핫인코딩을 진행하였다가 독립변수의 수가 너무 많아져 타겟인코딩으로 대체하여 독립변수를 인코딩 해주었습니다. # 결과를 저장할 DataFrame 생성 result_df = pd.DataFrame(columns=['Column_Name', 'PCC', 'p-value'..

이번 글에서는 머신러닝에 필요한 데이터들을 하나의 df으로 병합하기 위한 전처리를 진행해 보겠습니다. 데이터는 전세수급동향 / 전세가 / 매매가 / 지하철 / 학군 / 범죄율 / 기준금리 / 실업률 / 구별 gdp / 재개발 / 인구 / 공원 데이터들이 있으며 양이 꽤 많으므로 데이터를 나눠 전처리를 진행하기로 하였습니다. 1. 데이터 불러오기 기준금리와 실업률 데이터에 대한 전처리를 맡기로 하였으므로 두 가지 데이터를 불러옵니다. 환경은 로컬에서 jupyter notebook으로 진행했습니다. import numpy as np import pandas as pd path = './data/' df_lr = pd.read_excel(path + '한국은행_기준금리(월별).xlsx') df_uer = pd..