데이터 분석가
article thumbnail
데이터 정제
ML 2023. 8. 16. 18:42

프로젝트는 문제 정의 -> 데이터 수집 -> 데이터 정제, 데이터 라벨링 -> ML 모델링 -> 모델 평가 -> 보고서 작성의 과정을 거치는데 이번 글에서는 ML모델링을 위한 데이터 정제 및 데이터 라벨링을 다루어 보고자 한다. 환경 구축 실습 환경은 구글 코랩을 기준으로 한다. 사용 라이브러리는 다음과 같다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sns 아래의 코드를 실행하여 시각화 단계에서 한글 출력이 가능하도록 한다. # 필요 폰트 설치, 처음 한 번만 실행한다. !sudo apt-get install -y fonts-nanum !su..

article thumbnail
Pandas - Index Alignment
Python 2023. 8. 9. 17:06

Pandas 인덱스 정렬 이번 시간에는 판다스의 데이터프레임이나 시리즈에서 다른 데이터프레임이나 시리즈와 연산을 수행할 때 인덱스를 기준으로 데이터가 정렬되는 Index Alignment에 대해 예시와 함께 설명해 보려고 한다. 예시 먼저 시리즈 두개를 선언해주고 시리즈의 형태를 확인하면 다음과 같이 서로 다른 형태임을 알 수 있다. import pandas as pd s1 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e']) s2 = pd.Series([4, 3, 2, 1, 0], index=['e', 'd', 'c', 'b&..