데이터 분석가
전세가 예측 모델 프로젝트(5)
Project 2023. 10. 22. 20:07

저번 글에서 정규성과 등분산성의 불만족으로 통계분석 파트에서는 종속변수를 범주형 데이터로 분할하여 로지스틱 회귀분석을 진행하기로 결론을 내렸다. 이번 글에서는 로지스틱 회귀 분석을 진행하며 겪었던 고찰과정을 적어보려고 한다. Data leakage 정의 및 방지책 학습 데이터와 테스트 데이터를 나누어 모델을 학습시킬 때 데이터가 유출되어 학습 데이터 외의 정보로 모델이 학습되는 것을 Data leakage라고 합니다. 이로 인해 모델의 성능지표가 왜곡되어 나타나고 모델의 일반화가 저하되어 실제 현장에서 사용될 때 문제가 생길 수 있습니다. 이러한 오류를 방지하기 위해서는 학습 데이터에 모델을 활용하여 예측할 시점에 해당 정보를 사용할 수 있는지 점검한 상태에서 1번과 2번 방법을 통해 Data leaka..

article thumbnail
전세가 예측 모델 프로젝트(4)
Project 2023. 10. 10. 17:27

저번 글에서 잔차분석의 결과로 정규성과 등분산성이 만족되지 않는 것을 확인했으므로 이번 글에서는 이러한 가정을 만족하기 위한 다양한 방법들을 시도해보고, 다시 한번 잔차분석을 통해 가정이 만족되는지 확인해 보겠습니다. IQR기준으로 극단값 제거 IQR기준으로 lower bound = Q1 - (1.5 * IQR), upper bound = Q3 + (1.5 * IQR)로 하여 경계선을 넘어가는 값들을 제거해줍니다. 선형성 기존의 결과보다 선형성이 더 개선된 모습을 볼 수 있고, 대부분의 예측값에서 선형성을 만족한다고 판단한다. 정규성 statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다. S..

article thumbnail
전세가 예측 모델 프로젝트(3)
Project 2023. 10. 5. 17:50

프로젝트에서는 머신러닝에 앞서 PCC와 Regression analysis등의 통계분석을 통해 머신러닝에 넣어줄 변수를 선정하기로 하였습니다. PCC와 VIF를 통해 변수를 1차적으로 선택하고 선택한 변수들로 Regression analysis를 수행하여 p-value값을 기준으로 유의한 변수를 선정합니다. PCC 종속변수는 전세가인 JS_Price로 하고 독립변수들과의 PCC를 계산하였습니다. 독립변수 중 범주형 데이터가 존재하여 처음에는 원핫인코딩을 진행하였다가 독립변수의 수가 너무 많아져 타겟인코딩으로 대체하여 독립변수를 인코딩 해주었습니다. # 결과를 저장할 DataFrame 생성 result_df = pd.DataFrame(columns=['Column_Name', 'PCC', 'p-value'..

article thumbnail
전세가 예측 모델 프로젝트(2)
Project 2023. 9. 6. 16:49

이번 글에서는 머신러닝에 필요한 데이터들을 하나의 df으로 병합하기 위한 전처리를 진행해 보겠습니다. 데이터는 전세수급동향 / 전세가 / 매매가 / 지하철 / 학군 / 범죄율 / 기준금리 / 실업률 / 구별 gdp / 재개발 / 인구 / 공원 데이터들이 있으며 양이 꽤 많으므로 데이터를 나눠 전처리를 진행하기로 하였습니다. 1. 데이터 불러오기 기준금리와 실업률 데이터에 대한 전처리를 맡기로 하였으므로 두 가지 데이터를 불러옵니다. 환경은 로컬에서 jupyter notebook으로 진행했습니다. import numpy as np import pandas as pd path = './data/' df_lr = pd.read_excel(path + '한국은행_기준금리(월별).xlsx') df_uer = pd..

article thumbnail
전세가 예측 모델 프로젝트(1)
Project 2023. 9. 6. 10:39

오늘부터 약 3주간의 짧은 기간동안 6명의 조원이 부동산 전세가격을 예측하는 모델을 기반으로 하는 프로젝트를 진행해보려고 합니다. 블로그를 통해 프로젝트 진행과정 중의 에러나 고찰사항, 최종적으로는 결과에 대해 공유해보려 합니다. 프로젝트의 세부적인 소스코드는 https://github.com/Gil-Yeon/TIL/tree/master/Project/Jeonse_Price를 참고해 주시길 바랍니다. 이번 글에서는 프로젝트의 대략적인 개요에 대해 서술하겠습니다. 1. 프로젝트 주제 프로젝트의 주제는 전세가 예측을 기반으로 한 적정 전세가율(매매가 대비 전세가의 비율)의 도출로 전세사기를 예방하는 웹사이트를 구축하는 것입니다. 다만 프로젝트의 진행사항과 데이터 수집의 한계에 따라 주제는 약간 변동될 수 있..