데이터 분석가
전세가 예측 모델 프로젝트(5)
Project 2023. 10. 22. 20:07

저번 글에서 정규성과 등분산성의 불만족으로 통계분석 파트에서는 종속변수를 범주형 데이터로 분할하여 로지스틱 회귀분석을 진행하기로 결론을 내렸다. 이번 글에서는 로지스틱 회귀 분석을 진행하며 겪었던 고찰과정을 적어보려고 한다. Data leakage 정의 및 방지책 학습 데이터와 테스트 데이터를 나누어 모델을 학습시킬 때 데이터가 유출되어 학습 데이터 외의 정보로 모델이 학습되는 것을 Data leakage라고 합니다. 이로 인해 모델의 성능지표가 왜곡되어 나타나고 모델의 일반화가 저하되어 실제 현장에서 사용될 때 문제가 생길 수 있습니다. 이러한 오류를 방지하기 위해서는 학습 데이터에 모델을 활용하여 예측할 시점에 해당 정보를 사용할 수 있는지 점검한 상태에서 1번과 2번 방법을 통해 Data leaka..

SQL - 코호트 분석, RFM
SQL 2023. 10. 12. 20:44

이번 시간에는 마케팅에서 주로 활용되는 코호트 분석과 RFM을 SQL을 통해 알아보려고 한다. 교재 구매 아래 교재내용을 토대로 진행하겠습니다. 기본 DB설정은 교재의 내용을 참고하시기 바랍니다. https://www.yes24.com/Product/Goods/86544423 SQL로 맛보는 데이터 전처리 분석 - 예스24 SQL을 이용하여 현업에서 자주 사용되는 KPI 지표를 직접 추출해본다데이터 분석을 하기 위해서는 데이터베이스에 존재하는 데이터를 직접 추출할 수 있어야 한다. SQL은 우리가 데이터베이스에 www.yes24.com 코호트 분석 코호트 분석이란 사용자를 공통된 특성을 가진 그룹으로 나누고 시간 흐름에 따른 사용자 행동을 수치화해 분석하는 기법을 말한다. 이때 주로 리텐션, 구매 패턴,..

article thumbnail
전세가 예측 모델 프로젝트(4)
Project 2023. 10. 10. 17:27

저번 글에서 잔차분석의 결과로 정규성과 등분산성이 만족되지 않는 것을 확인했으므로 이번 글에서는 이러한 가정을 만족하기 위한 다양한 방법들을 시도해보고, 다시 한번 잔차분석을 통해 가정이 만족되는지 확인해 보겠습니다. IQR기준으로 극단값 제거 IQR기준으로 lower bound = Q1 - (1.5 * IQR), upper bound = Q3 + (1.5 * IQR)로 하여 경계선을 넘어가는 값들을 제거해줍니다. 선형성 기존의 결과보다 선형성이 더 개선된 모습을 볼 수 있고, 대부분의 예측값에서 선형성을 만족한다고 판단한다. 정규성 statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다. S..

article thumbnail
전세가 예측 모델 프로젝트(3)
Project 2023. 10. 5. 17:50

프로젝트에서는 머신러닝에 앞서 PCC와 Regression analysis등의 통계분석을 통해 머신러닝에 넣어줄 변수를 선정하기로 하였습니다. PCC와 VIF를 통해 변수를 1차적으로 선택하고 선택한 변수들로 Regression analysis를 수행하여 p-value값을 기준으로 유의한 변수를 선정합니다. PCC 종속변수는 전세가인 JS_Price로 하고 독립변수들과의 PCC를 계산하였습니다. 독립변수 중 범주형 데이터가 존재하여 처음에는 원핫인코딩을 진행하였다가 독립변수의 수가 너무 많아져 타겟인코딩으로 대체하여 독립변수를 인코딩 해주었습니다. # 결과를 저장할 DataFrame 생성 result_df = pd.DataFrame(columns=['Column_Name', 'PCC', 'p-value'..

article thumbnail
전세가 예측 모델 프로젝트(2)
Project 2023. 9. 6. 16:49

이번 글에서는 머신러닝에 필요한 데이터들을 하나의 df으로 병합하기 위한 전처리를 진행해 보겠습니다. 데이터는 전세수급동향 / 전세가 / 매매가 / 지하철 / 학군 / 범죄율 / 기준금리 / 실업률 / 구별 gdp / 재개발 / 인구 / 공원 데이터들이 있으며 양이 꽤 많으므로 데이터를 나눠 전처리를 진행하기로 하였습니다. 1. 데이터 불러오기 기준금리와 실업률 데이터에 대한 전처리를 맡기로 하였으므로 두 가지 데이터를 불러옵니다. 환경은 로컬에서 jupyter notebook으로 진행했습니다. import numpy as np import pandas as pd path = './data/' df_lr = pd.read_excel(path + '한국은행_기준금리(월별).xlsx') df_uer = pd..

article thumbnail
전세가 예측 모델 프로젝트(1)
Project 2023. 9. 6. 10:39

오늘부터 약 3주간의 짧은 기간동안 6명의 조원이 부동산 전세가격을 예측하는 모델을 기반으로 하는 프로젝트를 진행해보려고 합니다. 블로그를 통해 프로젝트 진행과정 중의 에러나 고찰사항, 최종적으로는 결과에 대해 공유해보려 합니다. 프로젝트의 세부적인 소스코드는 https://github.com/Gil-Yeon/TIL/tree/master/Project/Jeonse_Price를 참고해 주시길 바랍니다. 이번 글에서는 프로젝트의 대략적인 개요에 대해 서술하겠습니다. 1. 프로젝트 주제 프로젝트의 주제는 전세가 예측을 기반으로 한 적정 전세가율(매매가 대비 전세가의 비율)의 도출로 전세사기를 예방하는 웹사이트를 구축하는 것입니다. 다만 프로젝트의 진행사항과 데이터 수집의 한계에 따라 주제는 약간 변동될 수 있..

K-digital training
카테고리 없음 2023. 7. 20. 14:05

학부때부터 코딩을 어느정도 배우고, SQLD를 따기는 했지만 데이터 분석가가 되기 위한 역량이 부족하다고 느꼈습니다. 그래서 이 분야에 대한 체계적인 학습이 필요하다고 생각해 여러가지 알아본 결과 K-digital training이라는 국비교육을 알게 되었고, 여러 후기들을 찾아보니 지금 상황에 좋은 교육이라고 생각해 과정에 등록하게 되었습니다. 교육을 신청하고 수강하고 이제 1차 과정을 끝마쳤지만 그동안 전혀 배우지 못했던 컴퓨터 하드웨어와 OS, 그리고 프로그램들이 어떤식으로 연결되어 있는지 배우고 새로운 OS인 리눅스를 다루는 법을 배우게 되어 저 자신을 발전 시킬 수 있는 교육이 될 것 같아 보람을 느끼며 수강하고 있습니다. 학습한 내용 중 다시 한번 봐야할 내용들이나 진행과정에서 어려웠던 점, ..