<aside>
[PDF 자료 확인]
데이터 분석을 위한 통계학 입문 4.pdf
[녹화본 확인]
Video Conferencing, Web Conferencing, Webinars, Screen Sharing
</aside>
[수업 목표]
<aside> 📕
(1) 기본 개념
카이제곱 검정 (Chi-square test) 은 📊 범주형 자료 간의 관계나 분포 적합도를 검정하는 데 사용되는 통계 기법입니다.
(2) 범주형 자료 예시
(3) 데이터에서 교차표로 변환
<aside> 📕
데이터 → 교차표 변환
한 제조업체에서 생산 라인(A, B, C)
과 제품 상태(양품/불량) 데이터를 수집했다고 가정합니다.
제품 ID | 생산 라인 | 제품 상태 | |
---|---|---|---|
1 | A | 양품 | |
2 | A | 불량 | |
3 | B | 양품 | |
4 | C | 양품 | |
5 | B | 불량 | |
6 | C | 양품 | |
7 | A | 양품 | |
8 | B | 불량 | |
9 | A | 양품 | |
10 | C | 불량 |
교차표(Pivot Table) 형태로 데이터를 변환하면 다음과 같이 정리됩니다:
양품 | 불량 | 합계 | |
---|---|---|---|
A | 3 | 1 | 4 |
B | 1 | 2 | 3 |
C | 2 | 1 | 3 |
합계 | 6 | 4 | 10 |
해당 범주의 빈도를 나타냅니다.
import pandas as pd
# 1. 데이터 생성
data = {
"제품 ID": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
"생산 라인": ["A", "A", "B", "C", "B", "C", "A", "B", "A", "C"],
"제품 상태": ["양품", "불량", "양품", "양품", "불량", "양품", "양품", "불량", "양품", "불량"],
}
df = pd.DataFrame(data)
# 2. 교차표 생성
cross_tab = pd.crosstab(df["생산 라인"], df["제품 상태"], margins=True, margins_name="합계")
# 3. 출력
print(cross_tab)
제품 상태 불량 양품 합계
생산 라인
A 1 3 4
B 2 1 3
C 1 2 3
합계 4 6 10
</aside>
<aside> 📕
카이제곱 검정의 주요 유형 </aside>
적합도 검정(Goodness-of-fit test)
교차분석(Cross tabulation analysis) : 독립성 동질성 검정
<aside>
또 다른 갈래, 검정 독립성, 동질성, 적합도
(1) 적합도 (Goodness-of-fit) 검정
기대 분포 (이론적 분포) 에 적합
한지 확인합니다.(2) 독립성 (Independence) 검정
서로 독립
인지, 아니면 연관성이 있는지 확인합니다.(3) 동질성 (Homogeneity) 검정
선호도 분포
가 동일한지 검정💡 독립성 검정과 동질성 검정은 통계적으로 유사한 방식으로 진행되지만,
해석상 "서로 다른 모집단들이 동일한 분포를 보이는지" 를 묻는 점이 다릅니다. 💡
chisquare()
chi2_contingency()
chi2_contingency()
코드 차원에서는 독립성 검정과 동질성 검정이 똑같이 chi2_contingency를 이용하지만,
</aside>
<aside> 📕
</aside>