챕터 1-2 : 머신러닝을 하기전에 데이터 전처리 먼저!

<aside> <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/83c75a39-3aba-4ba4-a792-7aefe4b07895/94dbaed9-349c-449d-bc43-25de3ae5a780/SpartaIconScale9.png" alt="https://prod-files-secure.s3.us-west-2.amazonaws.com/83c75a39-3aba-4ba4-a792-7aefe4b07895/94dbaed9-349c-449d-bc43-25de3ae5a780/SpartaIconScale9.png" width="40px" /> 수업 목표

데이터 전처리의 필요성과 핵심 방법 이해
불균형 데이터 문제 해결 능력 배양
범주형 데이터 인코딩 기법 습득
피처 엔지니어링 기법 체득
데이터 전처리 실습 </aside>

</aside>

<aside> <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/83c75a39-3aba-4ba4-a792-7aefe4b07895/11965e36-5cde-4d10-b470-06dfbe247327/scc캐릭터_아하_280x280.png" alt="https://prod-files-secure.s3.us-west-2.amazonaws.com/83c75a39-3aba-4ba4-a792-7aefe4b07895/11965e36-5cde-4d10-b470-06dfbe247327/scc캐릭터_아하_280x280.png" width="40px" /> 필수 프로그램 설치

✅ Google Chrome

</aside>

이번에 배울 것

<aside> ❗

결측치, 이상치, 불균형 데이터를 제대로 처리하고, 의미 있는 파생 변수를 생성하여 모델의 성능을 높일 수 있는지 알아보겠습니다!

</aside>

1. 데이터 전처리 개요

데이터 전처리란?

<aside> 📚

원시(raw) 데이터에서 불필요하거나 손실(노이즈)이 있는 부분을 처리하고, 분석 목적에 맞는 형태로 만드는 과정

</aside>

필요성

<aside> 1️⃣

모델 정확도 및 신뢰도 향상

</aside>

<aside> 2️⃣

이상치나 결측치가 많은 상태로 학습하면 예측 성능이 크게 떨어짐

</aside>

<aside> 3️⃣

효율적인 데이터 분석과 모델 훈련을 위해 필수적인 단계

</aside>

제조업 사례

<aside>

센서가 간헐적으로 측정에 실패해 결측값이 발생
센서 오작동으로 인해 극단적으로 큰 값(이상치)이 기록
정상 제품과 불량 제품의 데이터 분포가 매우 다름(불균형 데이터) </aside>

금융 사례

<aside>

증권사나 은행에서 고객 정보 일부가 유실되거나, 특정 시점의 주가나 거래량 데이터가 취합되지 않은 경우 결측값 발생
특정 종목에 대해 드물게 발생하는 급등락(‘Flash Crash’), 단일 대량 거래에 따른 비정상적 가격 변동 이상치 기록
카드사 사기(부정 거래) 데이터(정상 거래에 비해 ‘부정 거래’는 비율이 극도로 작음)나 대출 연체(default) 사례 데이터의 경우 정상 데이터에 비해 극소수 </aside>

마케팅 사례

<aside>

온라인 설문이나 쿠폰 사용 정보가 중간에 누락되거나, 특정 채널(이메일·SNS·오프라인)에서 전송된 쿠폰 수 확인 불가한 경우 결측값 발생
광고 클릭률 중 특정 상품의 노출수/클릭수가 월등히 높아 평균을 왜곡, 혹은 이벤트가 끝나자마자 조회수가 급감하는 경우 이상치 기록
고객 이탈 예측 시 ‘이탈 고객’ 비율이 매우 적은 경우, 특정 광고 캠페인 전환 성공/실패 비율의 극단적 차이가 발생하는 경우 불균형 발생 </aside>

2. 결측치 처리

결측치 발생 원인

<aside>

센서 고장, 측정 오류, 환경적 문제 등
사람이 수기로 입력하는 경우 누락 </aside>

결측치 처리 기법

<aside> 1️⃣

삭제(Removal)

: 결측치가 있는 행(row) 또는 열(column)을 제거

→ 간단하지만 데이터 손실이 발생

→ 결측치가 전체 데이터에서 매우 소수일 때 적합

</aside>

<aside> 2️⃣

대체(Imputation)

: 평균 또는 중앙값으로 대체

→ 수치형 데이터에서 많이 사용, 데이터 분포 왜곡이 비교적 적음

: 최빈값으로 대체

→ 범주형 데이터에서 사용

: 예측 모델로 대체

→ 회귀/분류 모델을 이용해 결측값을 예측

</aside>

제조업 예시

<aside>

센서 데이터에서 특정 시간대(야간)에 종종 측정 누락이 발생한다면,

→ 중앙값으로 간단히 대체하거나

→ 인접 시간대 센서 값의 추세(ex: 이동평균)를 바탕으로 결측치 채움

중요한 센서라면, 예측 모델을 통해 결측치를 추정 (제조업 뿐만 아니더라도…) </aside>

금융 예시

<aside>

시간에 따라 변하는 시계열 데이터의 경우(주가, 거래량 등)

→ 일정 기간(예: 이전 5일, 이후 5일 등) 주가의 평균 또는 가중평균을 통해 결측값을 보정

→ 직전, 직후에 기록된 유효한 데이터로 빈 값을 채우는 방식 (Forward/Backward Fill)

고객 데이터(신용도, 소득, 자산 등)에 결측치가 발생한 경우

→ 중앙값을 사용하여 대체, 극단값의 영향을 받지 않아 평균 대체보다 안정적 → 그룹(클러스터)의 대표값으로 대체 (결측값이 속한 클러스터의 평균, 중앙값 등을 사용)

결측값이 간헐적으로 존재한다면

→ 비교적 중요도가 낮은 지표라면, 간단히 제거

</aside>

마케팅 예시

<aside>

</aside>

결측치 처리 코드

import numpy as np
import pandas as pd

# 1) 가상 데이터 생성
#   - 일부 값들을 np.nan으로 지정해 결측값을 만듭니다.
data = {
    'A': [1, 2, np.nan, 4, 5, np.nan, 7],
    'B': [5, 4, 2, np.nan, np.nan, 3, 1],
    'C': [2, np.nan, np.nan, 6, 7, 8, 9]
}
df = pd.DataFrame(data)
df