저번 글에서 잔차분석의 결과로 정규성과 등분산성이 만족되지 않는 것을 확인했으므로 이번 글에서는 이러한 가정을 만족하기 위한 다양한 방법들을 시도해보고, 다시 한번 잔차분석을 통해 가정이 만족되는지 확인해 보겠습니다.
IQR기준으로 극단값 제거
IQR기준으로 lower bound = Q1 - (1.5 * IQR), upper bound = Q3 + (1.5 * IQR)로 하여 경계선을 넘어가는 값들을 제거해줍니다.
선형성
기존의 결과보다 선형성이 더 개선된 모습을 볼 수 있고, 대부분의 예측값에서 선형성을 만족한다고 판단한다.
before
after
정규성
statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다.
ShapiroResult(statistic=0.8079574108123779, pvalue=0.0)
before
ShapiroResult(statistic=0.9605579376220703, pvalue=6.556731597316017e-29)
after
등분산성
기존의 결과보다 등분산성이 더 개선된 모습을 보이고 있지만, 여전히 예측값들에 대해 잔차의 분산이 동일하지 않은 모습을 보이므로 등분산성을 만족하지 않는다고 판단한다.
before
after
독립성
독립성을 나타내는 Durbin-Watson의 값이 1.982로 1.5~2.5사이이므로 여전히 독립성이 만족된다고 판단한다.
잔차분석 결과
잔차분석의 결과 여전히 회귀분석이 정규성과 등분산성의 가정을 만족하지 않는 것으로 보여 다른 방법도 시도해보도록 한다.
건물용도별로 데이터 분할해보기
건물의 용도별로 데이터를 분할해주겠습니다. 아래의 결과는 건물용도가 아파트인 경우의 데이터를 바탕으로 합니다.
선형성
기존의 결과보다 선형성이 더 개선된 모습을 볼 수 있고, 대부분의 예측값에서 선형성을 만족한다고 판단한다.
before
after
정규성
statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다.
ShapiroResult(statistic=0.8079574108123779, pvalue=0.0)
before
ShapiroResult(statistic=0.8514184951782227, pvalue=0.0)
after
등분산성
기존의 결과보다 등분산성이 더 개선된 모습을 보이고 있지만, 여전히 예측값들에 대해 잔차의 분산이 동일하지 않은 모습을 보이므로 등분산성을 만족하지 않는다고 판단한다.
before
after
독립성
독립성을 나타내는 Durbin-Watson의 값이 2.044로 1.5~2.5사이이므로 여전히 독립성이 만족된다고 판단한다.
잔차분석 결과
잔차분석의 결과 여전히 회귀분석이 정규성과 등분산성의 가정을 만족하지 않는 것으로 보여 다른 방법도 시도해보도록 한다.
지역별로 데이터 분할해보기
지역별로 데이터를 분할해주겠습니다. 일반적으로 집값과 인접성에 따라 지역이 묶이는 것을 고려하여 강남구, 서초구, 송파구 지역의 데이터를 따로 빼내 아래의 결과를 얻었습니다.
선형성
기존의 결과와 유사한 모습을 보이고 있으므로 대부분의 예측값에서 선형성을 만족한다고 판단한다.
before
after
정규성
statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다.
ShapiroResult(statistic=0.8079574108123779, pvalue=0.0)
before
ShapiroResult(statistic=0.865218997001648, pvalue=2.586994677289675e-30)
after
등분산성
기존의 결과와 유사한 모습을 보이고 있고, 여전히 예측값들에 대해 잔차의 분산이 동일하지 않은 모습을 보이므로 등분산성을 만족하지 않는다고 판단한다.
before
after
독립성
독립성을 나타내는 Durbin-Watson의 값이 1.989로 1.5~2.5사이이므로 여전히 독립성이 만족된다고 판단한다.
잔차분석 결과
잔차분석의 결과 여전히 회귀분석이 정규성과 등분산성의 가정을 만족하지 않는 것으로 보인다.
결론
선형회귀의 가정을 만족하기 위해 여러가지 방법을 시도해 보았습니다. 3. 데이터를 지역별로 강남/서초/송파 지역으로 한정한 경우 별다른 변화가 없었지만 1. IQR을 이용한 극단값 제거와 2. 건물용도에 따라 데이터를 분할한 경우에는 선형성, 정규성, 등분산성에 있어 약간의 개선효과를 얻을 수 있었습니다.
하지만 여전히 선형회귀분석을 진행하기에는 가정을 만족하지 않으므로 조원들과 진행상항 공유 후 통계분석 파트에서는 종속변수를 범주형 데이터로 분할하여 로지스틱 회귀분석을 진행하는 방향으로 선회하였습니다.