<aside>

[PDF 자료 확인]

데이터 분석을 위한 통계학 입문 4.pdf


[녹화본 확인]

Video Conferencing, Web Conferencing, Webinars, Screen Sharing

</aside>

[수업 목표]

  1. 카이제곱 검정을 통해 범주형 변수 간 독립성에 대한 가설 검정과 p-value 해석 방법을 익힌다.
  2. 독립성 검정, 적합도 검정, 동질성 검정 등 다양한 카이제곱 검정 방법을 이해한다.
  3. Python의 scipy.stats를 활용하여 카이제곱 통계량과 p-value를 계산하고, Cramer's V를 활용한 연관성 강도 측정 방법을 이해한다.
  4. 제조 품질 데이터를 활용하여 생산라인과 불량률의 연관성, 개선 전후 품질 변화 등을 통계적으로 분석하는 방법을 이해한다.

<aside> 📕

  1. 카이제곱 (χ2) 분석 개요 </aside>

(1) 기본 개념

카이제곱 검정 (Chi-square test) 은 📊 범주형 자료 간의 관계나 분포 적합도를 검정하는 데 사용되는 통계 기법입니다.

(2) 범주형 자료 예시

(3) 데이터에서 교차표로 변환

<aside> 📕

데이터 → 교차표 변환


1. 데이터 예시: 일반 레이블 형태

한 제조업체에서 생산 라인(A, B, C)제품 상태(양품/불량) 데이터를 수집했다고 가정합니다.

제품 ID 생산 라인 제품 상태
1 A 양품
2 A 불량
3 B 양품
4 C 양품
5 B 불량
6 C 양품
7 A 양품
8 B 불량
9 A 양품
10 C 불량

2. 교차표 생성

교차표(Pivot Table) 형태로 데이터를 변환하면 다음과 같이 정리됩니다:

양품 불량 합계
A 3 1 4
B 1 2 3
C 2 1 3
합계 6 4 10

해당 범주의 빈도를 나타냅니다.


3. Python Code로 변환 예시

import pandas as pd

# 1. 데이터 생성
data = {
    "제품 ID": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "생산 라인": ["A", "A", "B", "C", "B", "C", "A", "B", "A", "C"],
    "제품 상태": ["양품", "불량", "양품", "양품", "불량", "양품", "양품", "불량", "양품", "불량"],
}

df = pd.DataFrame(data)

# 2. 교차표 생성
cross_tab = pd.crosstab(df["생산 라인"], df["제품 상태"], margins=True, margins_name="합계")

# 3. 출력
print(cross_tab)


4. 출력 결과

제품 상태   불량  양품  합계
생산 라인
A          1    3    4
B          2    1    3
C          1    2    3
합계        4    6   10

</aside>


<aside> 📕

  1. 카이제곱 검정의 주요 유형 </aside>

  2. 적합도 검정(Goodness-of-fit test)

  3. 교차분석(Cross tabulation analysis) : 독립성 동질성 검정

    <aside>

    또 다른 갈래, 검정 독립성, 동질성, 적합도


    (1) 적합도 (Goodness-of-fit) 검정

    (2) 독립성 (Independence) 검정

    (3) 동질성 (Homogeneity) 검정

    💡 독립성 검정과 동질성 검정은 통계적으로 유사한 방식으로 진행되지만,

    해석상 "서로 다른 모집단들이 동일한 분포를 보이는지" 를 묻는 점이 다릅니다. 💡

    1. 적합성 검정: chisquare()
      • “단일 범주형 변수의 관측분포가 주어진 이론적 분포와 얼마나 잘 맞는가?”
    2. 독립성 검정: chi2_contingency()
      • “하나의 모집단에서 두 범주형 변수가 서로 독립인가?”
    3. 동질성 검정: chi2_contingency()
      • 서로 다른 여러 모집단에서 하나의 범주형 변수의 분포가 동일(동질)한가?”

    코드 차원에서는 독립성 검정과 동질성 검정이 똑같이 chi2_contingency를 이용하지만,

    </aside>

<aside> 📕

</aside>