[통계] 데이터 분석을 위한 통계학 입문 4

<aside>

[PDF 자료 확인]

데이터 분석을 위한 통계학 입문 4.pdf

[녹화본 확인]

Video Conferencing, Web Conferencing, Webinars, Screen Sharing

</aside>

[수업 목표]

카이제곱 검정을 통해 범주형 변수 간 독립성에 대한 가설 검정과 p-value 해석 방법을 익힌다.
독립성 검정, 적합도 검정, 동질성 검정 등 다양한 카이제곱 검정 방법을 이해한다.
Python의 scipy.stats를 활용하여 카이제곱 통계량과 p-value를 계산하고, Cramer's V를 활용한 연관성 강도 측정 방법을 이해한다.
제조 품질 데이터를 활용하여 생산라인과 불량률의 연관성, 개선 전후 품질 변화 등을 통계적으로 분석하는 방법을 이해한다.

<aside> 📕

카이제곱 (χ2) 분석 개요 </aside>

(1) 기본 개념

카이제곱 검정 (Chi-square test) 은 📊 범주형 자료 간의 관계나 분포 적합도를 검정하는 데 사용되는 통계 기법입니다.

(2) 범주형 자료 예시

성별 (남/여), 혈액형 (A/B/O/AB), 지역 (서울/경기/인천/...),
제품 만족도 (매우 만족/만족/보통/불만족/매우 불만족) 등

(3) 데이터에서 교차표로 변환

<aside> 📕

데이터 → 교차표 변환

1. 데이터 예시: 일반 레이블 형태

한 제조업체에서 생산 라인(A, B, C)과 제품 상태(양품/불량) 데이터를 수집했다고 가정합니다.

제품 ID	생산 라인	제품 상태
1	A	양품
2	A	불량
3	B	양품
4	C	양품
5	B	불량
6	C	양품
7	A	양품
8	B	불량
9	A	양품
10	C	불량

2. 교차표 생성

교차표(Pivot Table) 형태로 데이터를 변환하면 다음과 같이 정리됩니다:

	양품	불량	합계
A	3	1	4
B	1	2	3
C	2	1	3
합계	6	4	10

해당 범주의 빈도를 나타냅니다.

3. Python Code로 변환 예시

import pandas as pd

# 1. 데이터 생성
data = {
    "제품 ID": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "생산 라인": ["A", "A", "B", "C", "B", "C", "A", "B", "A", "C"],
    "제품 상태": ["양품", "불량", "양품", "양품", "불량", "양품", "양품", "불량", "양품", "불량"],
}

df = pd.DataFrame(data)

# 2. 교차표 생성
cross_tab = pd.crosstab(df["생산 라인"], df["제품 상태"], margins=True, margins_name="합계")

# 3. 출력
print(cross_tab)

4. 출력 결과

제품 상태   불량  양품  합계
생산 라인
A          1    3    4
B          2    1    3
C          1    2    3
합계        4    6   10

</aside>

<aside> 📕

카이제곱 검정의 주요 유형 </aside>
적합도 검정(Goodness-of-fit test)
- 하나의 범주형 변수에 대해 ‘이론적으로 기대되는 분포(기댓값)’가 있고, 이것이 실제 관찰된 분포(관측값)와 유의미하게 다른지를 검정합니다.
- 예) “5종류 사탕이 균등하게(각각 20%) 섞여 있다”는 가정과, 실제 뽑힌 사탕 빈도를 비교하는 문제.
교차분석(Cross tabulation analysis) : 독립성 동질성 검정
- 두 개 이상의 범주형 변수가 서로 관련(독립이 아님)되어 있는지 분석합니다.
- 예) “남학생과 여학생”이 “메뉴(짜장면, 짬뽕, 마라탕)”를 선택하는 빈도가 유의하게 다른지 알아보는 문제.
- 이를 독립성 검정(Chi-square test of independence)이라고 부르기도 합니다.
<aside>

또 다른 갈래, 검정 독립성, 동질성, 적합도

(1) 적합도 (Goodness-of-fit) 검정
- 하나의 범주형 변수가 어떤 특정한 기대 분포 (이론적 분포) 에 적합한지 확인합니다.
- 예시: 멘델의 유전 법칙에서 예상되는 표현형 비율 (둥근 완두콩 : 주름진 완두콩 = 3:1) 이 실제 관찰 결과와 일치하는지 검정
- 귀무가설 ($H_0$): 관측된 분포 = 기대 분포 (차이 없음)
(2) 독립성 (Independence) 검정
- 두 개의 범주형 변수가 서로 독립인지, 아니면 연관성이 있는지 확인합니다.
- 예시: 성별과 특정 질병 발병 여부가 연관되는지 검정
- 귀무가설 ($H_0$): 두 범주형 변수는 서로 독립
(3) 동질성 (Homogeneity) 검정
- 여러 모집단 (집단) 이 동일한 분포를 보이는지 검정합니다.
- 예시: 지역별로 특정 제품에 대한 선호도 분포가 동일한지 검정
- 귀무가설 ($H_0$): 여러 집단 간 범주형 분포는 모두 동일
💡 독립성 검정과 동질성 검정은 통계적으로 유사한 방식으로 진행되지만,

해석상 "서로 다른 모집단들이 동일한 분포를 보이는지" 를 묻는 점이 다릅니다. 💡
1. 적합성 검정: chisquare()
  - “단일 범주형 변수의 관측분포가 주어진 이론적 분포와 얼마나 잘 맞는가?”
2. 독립성 검정: chi2_contingency()
  - “하나의 모집단에서 두 범주형 변수가 서로 독립인가?”
3. 동질성 검정: chi2_contingency()
코드 차원에서는 독립성 검정과 동질성 검정이 똑같이 chi2_contingency를 이용하지만,

</aside>

<aside> 📕

</aside>