데이터 분석가
article thumbnail
Published 2023. 10. 10. 17:27
전세가 예측 모델 프로젝트(4) Project
  • 저번 글에서 잔차분석의 결과로 정규성과 등분산성이 만족되지 않는 것을 확인했으므로 이번 글에서는 이러한 가정을 만족하기 위한 다양한 방법들을 시도해보고, 다시 한번 잔차분석을 통해 가정이 만족되는지 확인해 보겠습니다.

IQR기준으로 극단값 제거

  • IQR기준으로 lower bound = Q1 - (1.5 * IQR), upper bound = Q3 + (1.5 * IQR)로 하여 경계선을 넘어가는 값들을 제거해줍니다.

선형성

  • 기존의 결과보다 선형성이 더 개선된 모습을 볼 수 있고, 대부분의 예측값에서 선형성을 만족한다고 판단한다.

before
after

정규성

  • statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다.
ShapiroResult(statistic=0.8079574108123779, pvalue=0.0)

before

ShapiroResult(statistic=0.9605579376220703, pvalue=6.556731597316017e-29)

after

등분산성

  • 기존의 결과보다 등분산성이 더 개선된 모습을 보이고 있지만, 여전히 예측값들에 대해 잔차의 분산이 동일하지 않은 모습을 보이므로 등분산성을 만족하지 않는다고 판단한다.

before
after

독립성

  • 독립성을 나타내는 Durbin-Watson의 값이 1.982로 1.5~2.5사이이므로 여전히 독립성이 만족된다고 판단한다.

잔차분석 결과

  • 잔차분석의 결과 여전히 회귀분석이 정규성과 등분산성의 가정을 만족하지 않는 것으로 보여 다른 방법도 시도해보도록 한다.

건물용도별로 데이터 분할해보기

  • 건물의 용도별로 데이터를 분할해주겠습니다. 아래의 결과는 건물용도가 아파트인 경우의 데이터를 바탕으로 합니다.

선형성

  • 기존의 결과보다 선형성이 더 개선된 모습을 볼 수 있고, 대부분의 예측값에서 선형성을 만족한다고 판단한다.

before
after

정규성

  • statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다.
ShapiroResult(statistic=0.8079574108123779, pvalue=0.0)

before

ShapiroResult(statistic=0.8514184951782227, pvalue=0.0)

after

등분산성

  • 기존의 결과보다 등분산성이 더 개선된 모습을 보이고 있지만, 여전히 예측값들에 대해 잔차의 분산이 동일하지 않은 모습을 보이므로 등분산성을 만족하지 않는다고 판단한다.

before
after

독립성

  • 독립성을 나타내는 Durbin-Watson의 값이 2.044로 1.5~2.5사이이므로 여전히 독립성이 만족된다고 판단한다.

잔차분석 결과

  • 잔차분석의 결과 여전히 회귀분석이 정규성과 등분산성의 가정을 만족하지 않는 것으로 보여 다른 방법도 시도해보도록 한다.

지역별로 데이터 분할해보기

  • 지역별로 데이터를 분할해주겠습니다. 일반적으로 집값과 인접성에 따라 지역이 묶이는 것을 고려하여 강남구, 서초구, 송파구 지역의 데이터를 따로 빼내 아래의 결과를 얻었습니다.

선형성

  • 기존의 결과와 유사한 모습을 보이고 있으므로 대부분의 예측값에서 선형성을 만족한다고 판단한다.

before
after

정규성

  • statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다.
ShapiroResult(statistic=0.8079574108123779, pvalue=0.0)

before

ShapiroResult(statistic=0.865218997001648, pvalue=2.586994677289675e-30)

after

등분산성

  • 기존의 결과와 유사한 모습을 보이고 있고, 여전히 예측값들에 대해 잔차의 분산이 동일하지 않은 모습을 보이므로 등분산성을 만족하지 않는다고 판단한다.

before
after

독립성

  • 독립성을 나타내는 Durbin-Watson의 값이 1.989로 1.5~2.5사이이므로 여전히 독립성이 만족된다고 판단한다.

잔차분석 결과

  • 잔차분석의 결과 여전히 회귀분석이 정규성과 등분산성의 가정을 만족하지 않는 것으로 보인다.

결론

  • 선형회귀의 가정을 만족하기 위해 여러가지 방법을 시도해 보았습니다. 3. 데이터를 지역별로 강남/서초/송파 지역으로 한정한 경우 별다른 변화가 없었지만 1. IQR을 이용한 극단값 제거와 2. 건물용도에 따라 데이터를 분할한 경우에는 선형성, 정규성, 등분산성에 있어 약간의 개선효과를 얻을 수 있었습니다.
  • 하지만 여전히 선형회귀분석을 진행하기에는 가정을 만족하지 않으므로 조원들과 진행상항 공유 후 통계분석 파트에서는 종속변수를 범주형 데이터로 분할하여 로지스틱 회귀분석을 진행하는 방향으로 선회하였습니다.
profile

데이터 분석가

@이꾹꾹

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!