
프로젝트에서는 머신러닝에 앞서 PCC와 Regression analysis등의 통계분석을 통해 머신러닝에 넣어줄 변수를 선정하기로 하였습니다. PCC와 VIF를 통해 변수를 1차적으로 선택하고 선택한 변수들로 Regression analysis를 수행하여 p-value값을 기준으로 유의한 변수를 선정합니다. PCC 종속변수는 전세가인 JS_Price로 하고 독립변수들과의 PCC를 계산하였습니다. 독립변수 중 범주형 데이터가 존재하여 처음에는 원핫인코딩을 진행하였다가 독립변수의 수가 너무 많아져 타겟인코딩으로 대체하여 독립변수를 인코딩 해주었습니다. # 결과를 저장할 DataFrame 생성 result_df = pd.DataFrame(columns=['Column_Name', 'PCC', 'p-value'..

이번 글에서는 머신러닝에 필요한 데이터들을 하나의 df으로 병합하기 위한 전처리를 진행해 보겠습니다. 데이터는 전세수급동향 / 전세가 / 매매가 / 지하철 / 학군 / 범죄율 / 기준금리 / 실업률 / 구별 gdp / 재개발 / 인구 / 공원 데이터들이 있으며 양이 꽤 많으므로 데이터를 나눠 전처리를 진행하기로 하였습니다. 1. 데이터 불러오기 기준금리와 실업률 데이터에 대한 전처리를 맡기로 하였으므로 두 가지 데이터를 불러옵니다. 환경은 로컬에서 jupyter notebook으로 진행했습니다. import numpy as np import pandas as pd path = './data/' df_lr = pd.read_excel(path + '한국은행_기준금리(월별).xlsx') df_uer = pd..

오늘부터 약 3주간의 짧은 기간동안 6명의 조원이 부동산 전세가격을 예측하는 모델을 기반으로 하는 프로젝트를 진행해보려고 합니다. 블로그를 통해 프로젝트 진행과정 중의 에러나 고찰사항, 최종적으로는 결과에 대해 공유해보려 합니다. 프로젝트의 세부적인 소스코드는 https://github.com/Gil-Yeon/TIL/tree/master/Project/Jeonse_Price를 참고해 주시길 바랍니다. 이번 글에서는 프로젝트의 대략적인 개요에 대해 서술하겠습니다. 1. 프로젝트 주제 프로젝트의 주제는 전세가 예측을 기반으로 한 적정 전세가율(매매가 대비 전세가의 비율)의 도출로 전세사기를 예방하는 웹사이트를 구축하는 것입니다. 다만 프로젝트의 진행사항과 데이터 수집의 한계에 따라 주제는 약간 변동될 수 있..