데이터 분석가
SQL - 쿼리의 문법 순서
SQL 2023. 10. 12. 13:10

SQL 쿼리의 문법 순서는 FROM / WHERE / GROUP BY / HAVING / SELECT / ORDER BY 순으로 진행된다. 따라서 SELECT절에서 쓰인 Ailas는 ORDER BY절에서만 사용되거나 서브쿼리를 활용하여 사용되어야 한다. 이 차이를 예제를 통해 확인해 보겠다. 교재 구매 아래 교재내용을 토대로 진행해보겠습니다. 기본 DB설정은 교재의 내용을 참고하시기 바랍니다. https://www.yes24.com/Product/Goods/86544423 SQL로 맛보는 데이터 전처리 분석 - 예스24 SQL을 이용하여 현업에서 자주 사용되는 KPI 지표를 직접 추출해본다데이터 분석을 하기 위해서는 데이터베이스에 존재하는 데이터를 직접 추출할 수 있어야 한다. SQL은 우리가 데이터베이..

article thumbnail
전세가 예측 모델 프로젝트(4)
Project 2023. 10. 10. 17:27

저번 글에서 잔차분석의 결과로 정규성과 등분산성이 만족되지 않는 것을 확인했으므로 이번 글에서는 이러한 가정을 만족하기 위한 다양한 방법들을 시도해보고, 다시 한번 잔차분석을 통해 가정이 만족되는지 확인해 보겠습니다. IQR기준으로 극단값 제거 IQR기준으로 lower bound = Q1 - (1.5 * IQR), upper bound = Q3 + (1.5 * IQR)로 하여 경계선을 넘어가는 값들을 제거해줍니다. 선형성 기존의 결과보다 선형성이 더 개선된 모습을 볼 수 있고, 대부분의 예측값에서 선형성을 만족한다고 판단한다. 정규성 statistic값이 증가하며 기존의 결과보다 정규성이 개선된 모습을 볼 수 있지만, p-value값이 여전히 0.05보다 작으므로 정규성을 만족하지 않는다고 판단한다. S..

SQL - Retention Rate, Churn Rate
SQL 2023. 10. 6. 17:06

이번 글에서는 마케팅의 주요 지표인 Retention Rate(재구매율)와 Churn Rate(이탈율)을 SQL로 파악해보려고 한다. 교재 구매 아래 교재내용을 토대로 진행해보겠습니다. 기본 DB설정은 교재의 내용을 참고하시기 바랍니다. https://www.yes24.com/Product/Goods/86544423 SQL로 맛보는 데이터 전처리 분석 - 예스24 SQL을 이용하여 현업에서 자주 사용되는 KPI 지표를 직접 추출해본다데이터 분석을 하기 위해서는 데이터베이스에 존재하는 데이터를 직접 추출할 수 있어야 한다. SQL은 우리가 데이터베이스에 www.yes24.com Retention Rate(재구매율) 아래 코드를 통해 각 나라의 연도별 재구매율을 알 수 있다. -- 국가 거주 구매자 중 다음..

article thumbnail
전세가 예측 모델 프로젝트(3)
Project 2023. 10. 5. 17:50

프로젝트에서는 머신러닝에 앞서 PCC와 Regression analysis등의 통계분석을 통해 머신러닝에 넣어줄 변수를 선정하기로 하였습니다. PCC와 VIF를 통해 변수를 1차적으로 선택하고 선택한 변수들로 Regression analysis를 수행하여 p-value값을 기준으로 유의한 변수를 선정합니다. PCC 종속변수는 전세가인 JS_Price로 하고 독립변수들과의 PCC를 계산하였습니다. 독립변수 중 범주형 데이터가 존재하여 처음에는 원핫인코딩을 진행하였다가 독립변수의 수가 너무 많아져 타겟인코딩으로 대체하여 독립변수를 인코딩 해주었습니다. # 결과를 저장할 DataFrame 생성 result_df = pd.DataFrame(columns=['Column_Name', 'PCC', 'p-value'..

article thumbnail
SQL-데이터 조작어
SQL 2023. 10. 5. 13:53

이번 글에서는 SQL 기초문법 중의 하나인 데이터 조작어에 대해 설명하고자 한다. 교재 구매 아래 교재내용을 토대로 진행해보겠습니다. 기본 DB설정은 교재의 내용을 참고하시기 바랍니다. https://www.yes24.com/Product/Goods/86544423 SQL로 맛보는 데이터 전처리 분석 - 예스24 SQL을 이용하여 현업에서 자주 사용되는 KPI 지표를 직접 추출해본다데이터 분석을 하기 위해서는 데이터베이스에 존재하는 데이터를 직접 추출할 수 있어야 한다. SQL은 우리가 데이터베이스에 www.yes24.com 데이터 조작 1) SELECT 테이블에서 원하는 검색을 하기 위한 명령어 SQL 쿼리에서 핵심이 되는 명령어로 여러 조건을 달아 원하는 정보를 조회할 수 있다. -- 기본 DB설정 ..

article thumbnail
SQL-데이터 정의어
SQL 2023. 10. 5. 13:53

이번 글에서는 SQL 기초문법 중의 하나인 데이터 정의어에 대해 설명하고자 한다. 교재 구매 아래 교재내용을 토대로 진행해보겠습니다. https://www.yes24.com/Product/Goods/86544423 SQL로 맛보는 데이터 전처리 분석 - 예스24 SQL을 이용하여 현업에서 자주 사용되는 KPI 지표를 직접 추출해본다데이터 분석을 하기 위해서는 데이터베이스에 존재하는 데이터를 직접 추출할 수 있어야 한다. SQL은 우리가 데이터베이스에 www.yes24.com 데이터 정의 1) CREATE TABLE 테이블을 생성하는 명령어 CREATE TABLE IF NOT EXISTS tasks ( task_id INT AUTO_INCREMENT , title VARCHAR(255) NOT NULL ,..

article thumbnail
전세가 예측 모델 프로젝트(2)
Project 2023. 9. 6. 16:49

이번 글에서는 머신러닝에 필요한 데이터들을 하나의 df으로 병합하기 위한 전처리를 진행해 보겠습니다. 데이터는 전세수급동향 / 전세가 / 매매가 / 지하철 / 학군 / 범죄율 / 기준금리 / 실업률 / 구별 gdp / 재개발 / 인구 / 공원 데이터들이 있으며 양이 꽤 많으므로 데이터를 나눠 전처리를 진행하기로 하였습니다. 1. 데이터 불러오기 기준금리와 실업률 데이터에 대한 전처리를 맡기로 하였으므로 두 가지 데이터를 불러옵니다. 환경은 로컬에서 jupyter notebook으로 진행했습니다. import numpy as np import pandas as pd path = './data/' df_lr = pd.read_excel(path + '한국은행_기준금리(월별).xlsx') df_uer = pd..

article thumbnail
전세가 예측 모델 프로젝트(1)
Project 2023. 9. 6. 10:39

오늘부터 약 3주간의 짧은 기간동안 6명의 조원이 부동산 전세가격을 예측하는 모델을 기반으로 하는 프로젝트를 진행해보려고 합니다. 블로그를 통해 프로젝트 진행과정 중의 에러나 고찰사항, 최종적으로는 결과에 대해 공유해보려 합니다. 프로젝트의 세부적인 소스코드는 https://github.com/Gil-Yeon/TIL/tree/master/Project/Jeonse_Price를 참고해 주시길 바랍니다. 이번 글에서는 프로젝트의 대략적인 개요에 대해 서술하겠습니다. 1. 프로젝트 주제 프로젝트의 주제는 전세가 예측을 기반으로 한 적정 전세가율(매매가 대비 전세가의 비율)의 도출로 전세사기를 예방하는 웹사이트를 구축하는 것입니다. 다만 프로젝트의 진행사항과 데이터 수집의 한계에 따라 주제는 약간 변동될 수 있..