🎯 시험 대비 보충 자료

핵심 계산 문제

파이프라인이 포착하지 못한 정형 계산 문제 (슬라이드 수식 직접 인용)
범위: 챕터 3 (지니·엔트로피) / 챕터 4 (지지도·신뢰도·향상도) / 챕터 5 (SSE·K-means)

13
총 문제수
5
3★ 고난이도
3
챕터
3
객관식
📐 핵심 공식 요약
척도 공식 범위 / 의미
지니 지수 Gini(t) = 1 − Σpᵢ(t)² 0 (순수) ~ 1−1/c (최대 불순)
지니 이득 Gain = Gini(parent) − Gini_split 높을수록 좋음
엔트로피 Entropy(t) = −Σpᵢ(t)log₂pᵢ(t) 0 (순수) ~ log₂c (최대)
정보 이득 Gain = Entropy(p) − Σ(nᵢ/n)·Entropy(i) 높을수록 좋음
지지도 s(X→Y) = σ(X∪Y)/|T| X와 Y가 함께 나타나는 비율
신뢰도 c(X→Y) = σ(X∪Y)/σ(X) X가 있을 때 Y가 있을 조건부 확률
향상도 Lift = c(X→Y)/s(Y) >1: 양의 연관, <1: 음의 연관
SSE SSE = ΣᵢΣₓ∈Cᵢ dist²(mᵢ,x) 클러스터 내 분산 합 (낮을수록 좋음)
챕터 필터
1
계산 ★★
📖 챕터 3 — 분류: 기본 개념과 기법
다음 두 노드의 지니 지수를 각각 계산하고, 어느 노드가 더 순수한지 판단하라.
노드 A노드 B
C1 (양성)13
C2 (음성)53
---
📝 상세 풀이
노드 A (n=6, C1=1, C2=5): $$\text{Gini}(A) = 1 - \left(\frac{1}{6}\right)^2 - \left(\frac{5}{6}\right)^2 = 1 - \frac{1}{36} - \frac{25}{36} = \frac{10}{36} \approx \mathbf{0.278}$$ 노드 B (n=6, C1=3, C2=3): $$\text{Gini}(B) = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 1 - \frac{1}{4} - \frac{1}{4} = \mathbf{0.5}$$ 판단: 노드 A의 지니(0.278) < 노드 B의 지니(0.5) → 노드 A가 더 순수하다. 지니 지수가 0에 가까울수록 한 클래스가 지배적(순수)이다.
2
계산 ★★★
📖 챕터 3 — 분류: 기본 개념과 기법
부모 노드 (C1=7, C2=5, n=12)를 속성 B로 분할할 때의 지니 이득을 계산하라.
부모N1 (B=Yes)N2 (B=No)
C1752
C2514
합계1266
*(슬라이드 23 — Binary Attributes: Computing GINI Index)* ---
📝 상세 풀이
① 부모 지니: $$\text{Gini}(p) = 1 - \left(\frac{7}{12}\right)^2 - \left(\frac{5}{12}\right)^2 = 1 - \frac{49}{144} - \frac{25}{144} = \frac{70}{144} \approx \mathbf{0.486}$$ ② 자식 지니: $$\text{Gini}(N1) = 1 - \left(\frac{5}{6}\right)^2 - \left(\frac{1}{6}\right)^2 = 1 - \frac{25}{36} - \frac{1}{36} = \frac{10}{36} \approx 0.278$$ $$\text{Gini}(N2) = 1 - \left(\frac{2}{6}\right)^2 - \left(\frac{4}{6}\right)^2 = 1 - \frac{4}{36} - \frac{16}{36} = \frac{16}{36} \approx 0.444$$ ③ 분할 지니 (가중 평균): $$\text{Gini}_{split} = \frac{6}{12} \times 0.278 + \frac{6}{12} \times 0.444 = 0.139 + 0.222 = \mathbf{0.361}$$ ④ 지니 이득: $$\text{Gain} = 0.486 - 0.361 = \mathbf{0.125}$$ 해석: 분할 후 지니가 0.486 → 0.361로 감소 → 분순도가 감소하여 분할이 유효하다.
3
계산 ★★
📖 챕터 3 — 분류: 기본 개념과 기법
다음 두 노드의 엔트로피를 계산하고, 슬라이드의 값과 비교하라.
노드C1C2
X15
Y24
*(슬라이드 25 — Computing Entropy of a Single Node)* ---
📝 상세 풀이
노드 X (n=6): $$\text{Entropy}(X) = -\frac{1}{6}\log_2\frac{1}{6} - \frac{5}{6}\log_2\frac{5}{6}$$ $$= -\frac{1}{6}(-2.585) - \frac{5}{6}(-0.263) = 0.431 + 0.219 = \mathbf{0.65}$$ 노드 Y (n=6): $$\text{Entropy}(Y) = -\frac{2}{6}\log_2\frac{2}{6} - \frac{4}{6}\log_2\frac{4}{6}$$ $$= -\frac{1}{3}(-1.585) - \frac{2}{3}(-0.585) = 0.528 + 0.390 = \mathbf{0.918}$$ 암기 포인트: C1=0이면 엔트로피=0 (완전 순수), C1=C2이면 최대 (이진: 1.0) 슬라이드와 동일한 값 → C1=1,C2=5: 0.65 / C1=2,C2=4: 0.92
4
계산 ★★★
📖 챕터 3 — 분류: 기본 개념과 기법
부모 노드 (C1=7, C2=5)를 문제 2와 동일한 방식으로 분할할 때의 정보 이득을 계산하라. (N1: C1=5, C2=1 / N2: C1=2, C2=4, 각 n=6) ---
📝 상세 풀이
① 부모 엔트로피: $$\text{Entropy}(p) = -\frac{7}{12}\log_2\frac{7}{12} - \frac{5}{12}\log_2\frac{5}{12}$$ $$= -0.583 \times (-0.778) - 0.417 \times (-1.263) = 0.454 + 0.527 = \mathbf{0.981}$$ ② 자식 엔트로피: $$\text{Entropy}(N1) = -\frac{5}{6}\log_2\frac{5}{6} - \frac{1}{6}\log_2\frac{1}{6} = 0.219 + 0.431 = 0.650$$ $$\text{Entropy}(N2) = -\frac{2}{6}\log_2\frac{2}{6} - \frac{4}{6}\log_2\frac{4}{6} = 0.528 + 0.390 = 0.918$$ ③ 정보 이득: $$\text{Gain} = 0.981 - \left(\frac{6}{12} \times 0.650 + \frac{6}{12} \times 0.918\right) = 0.981 - 0.784 = \mathbf{0.197}$$ 비교: 지니 이득 0.125 vs 정보 이득 0.197 → 두 척도 모두 같은 분할을 선호하지만 수치는 다름
5
객관식 ★★★
📖 챕터 3 — 분류: 기본 개념과 기법
부모 노드 (C1=7, C2=5, n=12)를 두 속성으로 분할할 때, 지니 이득이 더 큰 속성은? 속성 A: N1(C1=5, C2=1, n=6), N2(C1=2, C2=4, n=6) 속성 B: N1(C1=4, C2=2, n=6), N2(C1=3, C2=3, n=6) *(슬라이드 23 — 부모 노드와 속성 A 분할이 슬라이드 실제 데이터)* --- ### 핵심 공식 요약
척도공식의미
지지도 (Support)$s(X \to Y) = \dfrac{\sigma(X \cup Y)}{|T|}$X와 Y가 함께 나타나는 비율
신뢰도 (Confidence)$c(X \to Y) = \dfrac{\sigma(X \cup Y)}{\sigma(X)}$X가 있을 때 Y가 있을 조건부 확률
향상도 (Lift/Interest)$\text{Lift}(X \to Y) = \dfrac{P(Y|X)}{P(Y)} = \dfrac{c(X \to Y)}{s(Y)}$1 초과: 양의 상관, 1 미만: 음의 상관
--- ### 기본 거래 데이터 (챕터 4 전체 문제 공용)
TID구매 품목
1Bread, Milk
2Bread, Diaper, Beer, Eggs
3Milk, Diaper, Beer, Coke
4Bread, Milk, Diaper, Beer
5Bread, Milk, Diaper, Coke
*(슬라이드 3~7 — Definition: Frequent Itemset & Association Rule)* ---
속성 A ② 속성 B ③ 동일 ④ 판단 불가
속성 A ② 속성 B ③ 동일 ④ 판단 불가
속성 A ② 속성 B ③ 동일 ④ 판단 불가
속성 A ② 속성 B ③ 동일 ④ 판단 불가
📝 상세 풀이
부모 지니 (슬라이드 23 값): $$\text{Gini}(p) = 1 - \left(\frac{7}{12}\right)^2 - \left(\frac{5}{12}\right)^2 = \frac{70}{144} \approx \mathbf{0.486}$$ 속성 A ← 슬라이드 23 실제 분할: - Gini(N1) = 1 - (5/6)² - (1/6)² = 10/36 = 0.278 - Gini(N2) = 1 - (2/6)² - (4/6)² = 16/36 = 0.444 - Gini_split(A) = 6/12 × 0.278 + 6/12 × 0.444 = 0.361 - Gain(A) = 0.486 − 0.361 = 0.125 속성 B ← 비교 분할: - Gini(N1) = 1 - (4/6)² - (2/6)² = 16/36 = 0.444 - Gini(N2) = 1 - (3/6)² - (3/6)² = 0.500 - Gini_split(B) = 6/12 × 0.444 + 6/12 × 0.500 = 0.472 - Gain(B) = 0.486 − 0.472 = 0.014 정답: ① 속성 A (이득 0.125 ≫ 0.014) 슬라이드 23의 분할이 지니 이득이 훨씬 크다. 속성 B는 자식이 여전히 불순하여 거의 개선이 없다.
6
계산 ★★
📖 챕터 4 — 연관 분석
위 거래 데이터에서 규칙 {Milk, Diaper} → {Beer}의 지지도와 신뢰도를 구하라. ---
📝 상세 풀이
① 아이템셋 빈도 파악:
아이템셋포함 TIDσ
{Milk, Diaper, Beer}3, 42
{Milk, Diaper}3, 4, 53
{Beer}2, 3, 43
② 지지도: $$s(\{Milk, Diaper\} \to \{Beer\}) = \frac{\sigma(\{Milk, Diaper, Beer\})}{|T|} = \frac{2}{5} = \mathbf{0.4}$$ ③ 신뢰도: $$c = \frac{\sigma(\{Milk, Diaper, Beer\})}{\sigma(\{Milk, Diaper\})} = \frac{2}{3} \approx \mathbf{0.667}$$ 해석: 5개 거래 중 40%에서 세 품목이 함께 구매되며, Milk·Diaper를 산 고객의 67%가 Beer도 구매한다.
7
계산 ★★★
📖 챕터 4 — 연관 분석
문제 6의 규칙에 대해 향상도(Lift)를 계산하고, 통계적 의미를 해석하라. ---
📝 상세 풀이
$$s(\{Beer\}) = \frac{3}{5} = 0.6$$ $$\text{Lift} = \frac{c(\{Milk,Diaper\} \to \{Beer\})}{s(\{Beer\})} = \frac{2/3}{3/5} = \frac{2}{3} \times \frac{5}{3} = \frac{10}{9} \approx \mathbf{1.11}$$ 해석: - Lift > 1 → Milk·Diaper를 산 고객이 Beer를 살 확률이 전체 평균보다 11% 높음 - Lift = 1 → 독립 (연관 없음) - Lift < 1 → 음의 연관 (상호 억제) 이 규칙은 실제로 유의미한 양의 연관이 있다.
8
계산 ★★★
📖 챕터 4 — 연관 분석
다음 분할표에서 Tea → Coffee 규칙의 Lift를 계산하고, 이 규칙이 유의미한지 판단하라.
Coffee¬Coffee합계
Tea15050200
¬Tea650150800
합계8002001000
*(슬라이드 56~62 — Drawback of Confidence, Lift)* ---
Lift > 1, 유의미
Lift < 1, 유의미하지 않음 (음의 연관)
Lift = 1, 독립
Confidence만으로 판단 불가
Lift > 1, 유의미
Lift < 1, 유의미하지 않음 (음의 연관)
Lift = 1, 독립
Confidence만으로 판단 불가
Lift > 1, 유의미
Lift < 1, 유의미하지 않음 (음의 연관)
Lift = 1, 독립
Confidence만으로 판단 불가
Lift > 1, 유의미
Lift < 1, 유의미하지 않음 (음의 연관)
Lift = 1, 독립
Confidence만으로 판단 불가
📝 상세 풀이
$$\text{Confidence} = P(\text{Coffee}|\text{Tea}) = \frac{150}{200} = 0.75$$ $$P(\text{Coffee}) = \frac{800}{1000} = 0.8$$ $$\text{Lift} = \frac{P(\text{Coffee}|\text{Tea})}{P(\text{Coffee})} = \frac{0.75}{0.8} = \mathbf{0.9375}$$ 또는: $\text{Interest} = \frac{f_{11}}{N} \div \frac{f_{1+} \times f_{+1}}{N^2} = \frac{150/1000}{(200/1000) \times (800/1000)} = \frac{0.15}{0.16} = 0.9375$ Lift < 1정답: ② 핵심: Confidence=0.75로 높아 보이지만, Coffee를 사는 전체 확률(0.8)이 더 높다. 즉, Tea를 산다는 사실이 Coffee 구매 확률을 오히려 낮춘다 (음의 연관). Confidence만 보면 오해할 수 있어 Lift(향상도)를 반드시 함께 확인해야 한다.
9
계산 ★★★
📖 챕터 4 — 연관 분석
아래 거래 데이터(슬라이드 15~19 실제 데이터)에서 minsup=3(60%), minconf=0.75일 때, (1) 빈번 1·2-아이템셋을 모두 구하라. (2) 빈번 2-아이템셋에서 minconf를 만족하는 연관규칙을 모두 생성하라.
TID구매 품목
1Bread, Milk
2Bread, Diaper, Beer, Eggs
3Milk, Diaper, Beer, Coke
4Bread, Milk, Diaper, Beer
5Bread, Milk, Diaper, Coke
*(슬라이드 15~19 — Illustrating Apriori Principle, Minimum Support = 3)* --- ### 핵심 공식 요약
항목공식의미
SSE$\text{SSE} = \sum_{i=1}^{K} \sum_{x \in C_i} \text{dist}^2(m_i, x)$클러스터 내 분산 합 (낮을수록 좋음)
센트로이드$m_k = \dfrac{1}{C_k} \sum_{x \in C_k} x$클러스터 평균 (유클리드 거리 기준)
거리 배정각 점을 가장 가까운 센트로이드에 배정
---
📝 상세 풀이
① 1-아이템셋 (σ ≥ 3):
아이템포함 TIDσ빈번?
Bread1,2,4,54
Milk1,3,4,54
Beer2,3,43
Diaper2,3,4,54
Coke3,52
Eggs21
빈번 1-아이템셋: {Bread}(4), {Milk}(4), {Beer}(3), {Diaper}(4) ② 2-아이템셋 (빈번 1-아이템셋 조합, 슬라이드 17~19 값):
아이템셋포함 TIDσ빈번?
{Bread, Milk}1,4,53
{Bread, Beer}2,42
{Bread, Diaper}2,4,53
{Milk, Beer}3,42
{Milk, Diaper}3,4,53
{Beer, Diaper}2,3,43
빈번 2-아이템셋: {Bread,Milk}, {Bread,Diaper}, {Milk,Diaper}, {Beer,Diaper} ③ 연관규칙 생성 (minconf=0.75):
규칙σ(LHS∪RHS)/σ(LHS)Confidence유효?
Bread → Milk3/40.75
Milk → Bread3/40.75
Bread → Diaper3/40.75
Diaper → Bread3/40.75
Milk → Diaper3/40.75
Diaper → Milk3/40.75
Beer → Diaper3/31.00
Diaper → Beer3/40.75
생성된 연관규칙 8개 (지지도 모두 s=3/5=0.6) 특히 Beer → Diaper는 Confidence=1.0 — Beer를 산 고객은 반드시 Diaper도 구매했다.
10
계산 ★★
📖 챕터 5 — 군집 분석
다음 1차원 데이터에 대해 K=2, 초기 센트로이드 m1=1, m2=5로 K-means를 실행하라. 1회 반복 후의 새 센트로이드와 수렴 여부를 판단하라. 데이터: 1, 2, 4, 5 ---
📝 상세 풀이
① 초기 배정 (각 점을 더 가까운 센트로이드에 배정):
데이터dist to m1=1dist to m2=5배정
104C1
213C1
431C2
540C2
② 센트로이드 갱신: $$m_1' = \frac{1+2}{2} = \mathbf{1.5}, \quad m_2' = \frac{4+5}{2} = \mathbf{4.5}$$ ③ 2회차 배정 확인 (수렴 검증):
데이터dist to m1=1.5dist to m2=4.5배정
10.53.5C1
20.52.5C1
42.50.5C2
53.50.5C2
배정 변화 없음 → 수렴 완료 최종: C1={1,2}, m1=1.5 / C2={4,5}, m2=4.5
11
계산 ★★
📖 챕터 5 — 군집 분석
문제 10의 최종 클러스터에 대해 SSE를 계산하라. ---
📝 상세 풀이
$$\text{SSE}(C1) = (1-1.5)^2 + (2-1.5)^2 = 0.25 + 0.25 = 0.5$$ $$\text{SSE}(C2) = (4-4.5)^2 + (5-4.5)^2 = 0.25 + 0.25 = 0.5$$ $$\text{SSE}_{total} = 0.5 + 0.5 = \mathbf{1.0}$$ 해석: SSE는 낮을수록 각 클러스터가 컴팩트함을 의미한다. K를 늘리면 SSE는 항상 감소하지만 해석 가능성이 떨어지므로 적정 K를 선택해야 한다.
12
계산 ★★★
📖 챕터 5 — 군집 분석
다음 4개의 점에 대해 K=2, 초기 센트로이드 m1=(1,1), m2=(6,4)로 K-means를 실행하고 최종 SSE를 구하라.
좌표
A(1, 1)
B(2, 2)
C(5, 5)
D(6, 4)
---
📝 상세 풀이
① 초기 배정 (유클리드 거리 사용):
dist to m1=(1,1)dist to m2=(6,4)배정
A(1,1)0$\sqrt{25+9}=\sqrt{34}\approx5.83$C1
B(2,2)$\sqrt{1+1}=\sqrt{2}\approx1.41$$\sqrt{16+4}=\sqrt{20}\approx4.47$C1
C(5,5)$\sqrt{16+16}=\sqrt{32}\approx5.66$$\sqrt{1+1}=\sqrt{2}\approx1.41$C2
D(6,4)$\sqrt{25+9}=\sqrt{34}\approx5.83$0C2
② 센트로이드 갱신: $$m_1' = \left(\frac{1+2}{2},\; \frac{1+2}{2}\right) = \mathbf{(1.5,\; 1.5)}$$ $$m_2' = \left(\frac{5+6}{2},\; \frac{5+4}{2}\right) = \mathbf{(5.5,\; 4.5)}$$ ③ 2회차 배정 — 동일 → 수렴 완료 ④ SSE 계산: *C1 = {A(1,1), B(2,2)}, m1=(1.5, 1.5)* $$\text{SSE}(C1) = [(1-1.5)^2+(1-1.5)^2] + [(2-1.5)^2+(2-1.5)^2]$$ $$= [0.25+0.25] + [0.25+0.25] = 0.5 + 0.5 = 1.0$$ *C2 = {C(5,5), D(6,4)}, m2=(5.5, 4.5)* $$\text{SSE}(C2) = [(5-5.5)^2+(5-4.5)^2] + [(6-5.5)^2+(4-4.5)^2]$$ $$= [0.25+0.25] + [0.25+0.25] = 0.5 + 0.5 = 1.0$$ $$\boxed{\text{SSE}_{total} = 1.0 + 1.0 = \mathbf{2.0}}$$
13
객관식 ★★
📖 챕터 5 — 군집 분석
K-means에서 SSE를 최소화하는 센트로이드는 무엇인가? --- ### 지니 vs 엔트로피 비교
항목지니 지수엔트로피
수식$1 - \sum p_i^2$$-\sum p_i \log_2 p_i$
최솟값0 (순수)0 (순수)
최댓값 (이진)0.5 (p=0.5)1.0 (p=0.5)
계산 속도빠름 (log 없음)느림
사용 알고리즘CARTID3, C4.5
### 연관 규칙 수치 판단 기준
Lift 값의미규칙 유의성
> 1양의 연관유의미
= 1독립무의미
< 1음의 연관오해 유발 가능
> 주의: Confidence가 높아도 Lift < 1이면 규칙이 오히려 역효과 > (예: Tea→Coffee, Conf=0.75이지만 Lift=0.9375) ### K-means 실수 방지 포인트 1. 수렴 조건: 센트로이드가 변하지 않으면 수렴 (배정 변화 없음) 2. SSE 공식: 거리의 제곱합 — 유클리드 거리가 아닌 거리² 3. 초기값 의존성: 초기 센트로이드에 따라 결과가 달라질 수 있음 → K-means++ 사용 4. 센트로이드 = 평균: Manhattan 거리일 때는 중앙값(median)
클러스터 내 중간값(median)
클러스터 내 최빈값(mode)
클러스터 내 평균값(mean)
가장 밀도가 높은 점
클러스터 내 중간값(median)
클러스터 내 최빈값(mode)
클러스터 내 평균값(mean)
가장 밀도가 높은 점
클러스터 내 중간값(median)
클러스터 내 최빈값(mode)
클러스터 내 평균값(mean)
가장 밀도가 높은 점
클러스터 내 중간값(median)
클러스터 내 최빈값(mode)
클러스터 내 평균값(mean)
가장 밀도가 높은 점
📝 상세 풀이
정답: ③ $\text{SSE} = \sum_{x \in C_k}(c_k - x)^2$를 $c_k$로 편미분하면: $$\frac{\partial}{\partial c_k}\text{SSE} = \sum_{x \in C_k} 2(c_k - x) = 0 \implies c_k = \frac{1}{|C_k|}\sum_{x \in C_k} x$$ 즉, SSE를 최소화하는 센트로이드는 클러스터 내 산술 평균(mean) 이다. Manhattan 거리를 쓸 경우에는 중간값(median)이 최적이다. (슬라이드 13, Table 5.2)
📋 종합 요약 — 시험 직전 체크리스트

지니 vs 엔트로피 비교

  • 지니: 1 − Σpᵢ² (계산 빠름, CART 사용)
  • 엔트로피: −Σpᵢlog₂pᵢ (계산 느림, ID3/C4.5)
  • 둘 다 0=순수, 최대=균등분포
  • 이진 분류 최대: 지니 0.5, 엔트로피 1.0

연관 규칙 수치 판단

  • Lift > 1: 양의 연관 (유의미)
  • Lift = 1: 독립 (무의미)
  • Lift < 1: 음의 연관 (주의)
  • Confidence만 보지 말고 Lift 필수 확인!

K-means 실수 방지

  • 수렴: 센트로이드 변화 없음
  • SSE: 거리의 제곱합 (거리²)
  • 센트로이드 = 평균 (유클리드 기준)
  • Manhattan 거리 시 중앙값(median)

공식 암기 팁

  • 지니 = 1 − (양성비율² + 음성비율²)
  • 엔트로피 = −p·log₂p 합
  • 지지도 = 함께구매 / 전체거래
  • 신뢰도 = 함께구매 / 조건구매