🎯 시험 대비 보충 자료

핵심 계산 문제

파이프라인이 포착하지 못한 정형 계산 문제 (슬라이드 수식 직접 인용)
범위: 챕터 3 (지니·엔트로피) / 챕터 4 (지지도·신뢰도·향상도) / 챕터 5 (SSE·K-means)

총 문제수

3★ 고난이도

챕터

객관식

📐 핵심 공식 요약

척도	공식	범위 / 의미
지니 지수	Gini(t) = 1 − Σpᵢ(t)²	0 (순수) ~ 1−1/c (최대 불순)
지니 이득	Gain = Gini(parent) − Gini_split	높을수록 좋음
엔트로피	Entropy(t) = −Σpᵢ(t)log₂pᵢ(t)	0 (순수) ~ log₂c (최대)
정보 이득	Gain = Entropy(p) − Σ(nᵢ/n)·Entropy(i)	높을수록 좋음
지지도	s(X→Y) = σ(X∪Y)/\|T\|	X와 Y가 함께 나타나는 비율
신뢰도	c(X→Y) = σ(X∪Y)/σ(X)	X가 있을 때 Y가 있을 조건부 확률
향상도	Lift = c(X→Y)/s(Y)	>1: 양의 연관, <1: 음의 연관
SSE	SSE = ΣᵢΣₓ∈Cᵢ dist²(mᵢ,x)	클러스터 내 분산 합 (낮을수록 좋음)

계산 ★★

📖 챕터 3 — 분류: 기본 개념과 기법

다음 두 노드의 지니 지수를 각각 계산하고, 어느 노드가 더 순수한지 판단하라.

	노드 A	노드 B
C1 (양성)	1	3
C2 (음성)	5	3

---

📝 상세 풀이

노드 A (n=6, C1=1, C2=5): $$\text{Gini}(A) = 1 - \left(\frac{1}{6}\right)^2 - \left(\frac{5}{6}\right)^2 = 1 - \frac{1}{36} - \frac{25}{36} = \frac{10}{36} \approx \mathbf{0.278}$$ 노드 B (n=6, C1=3, C2=3): $$\text{Gini}(B) = 1 - \left(\frac{3}{6}\right)^2 - \left(\frac{3}{6}\right)^2 = 1 - \frac{1}{4} - \frac{1}{4} = \mathbf{0.5}$$ 판단: 노드 A의 지니(0.278) < 노드 B의 지니(0.5) → 노드 A가 더 순수하다. 지니 지수가 0에 가까울수록 한 클래스가 지배적(순수)이다.

계산 ★★★

📖 챕터 3 — 분류: 기본 개념과 기법

부모 노드 (C1=7, C2=5, n=12)를 속성 B로 분할할 때의 지니 이득을 계산하라.

	부모	N1 (B=Yes)	N2 (B=No)
C1	7	5	2
C2	5	1	4
합계	12	6	6

*(슬라이드 23 — Binary Attributes: Computing GINI Index)* ---

📝 상세 풀이

① 부모 지니: $$\text{Gini}(p) = 1 - \left(\frac{7}{12}\right)^2 - \left(\frac{5}{12}\right)^2 = 1 - \frac{49}{144} - \frac{25}{144} = \frac{70}{144} \approx \mathbf{0.486}$$ ② 자식 지니: $$\text{Gini}(N1) = 1 - \left(\frac{5}{6}\right)^2 - \left(\frac{1}{6}\right)^2 = 1 - \frac{25}{36} - \frac{1}{36} = \frac{10}{36} \approx 0.278$$ $$\text{Gini}(N2) = 1 - \left(\frac{2}{6}\right)^2 - \left(\frac{4}{6}\right)^2 = 1 - \frac{4}{36} - \frac{16}{36} = \frac{16}{36} \approx 0.444$$ ③ 분할 지니 (가중 평균): $$\text{Gini}_{split} = \frac{6}{12} \times 0.278 + \frac{6}{12} \times 0.444 = 0.139 + 0.222 = \mathbf{0.361}$$ ④ 지니 이득: $$\text{Gain} = 0.486 - 0.361 = \mathbf{0.125}$$ 해석: 분할 후 지니가 0.486 → 0.361로 감소 → 분순도가 감소하여 분할이 유효하다.

계산 ★★

📖 챕터 3 — 분류: 기본 개념과 기법

다음 두 노드의 엔트로피를 계산하고, 슬라이드의 값과 비교하라.

	노드	C1	C2
X	1	5
Y	2	4

*(슬라이드 25 — Computing Entropy of a Single Node)* ---

📝 상세 풀이

노드 X (n=6): $$\text{Entropy}(X) = -\frac{1}{6}\log_2\frac{1}{6} - \frac{5}{6}\log_2\frac{5}{6}$$ $$= -\frac{1}{6}(-2.585) - \frac{5}{6}(-0.263) = 0.431 + 0.219 = \mathbf{0.65}$$ 노드 Y (n=6): $$\text{Entropy}(Y) = -\frac{2}{6}\log_2\frac{2}{6} - \frac{4}{6}\log_2\frac{4}{6}$$ $$= -\frac{1}{3}(-1.585) - \frac{2}{3}(-0.585) = 0.528 + 0.390 = \mathbf{0.918}$$ 암기 포인트: C1=0이면 엔트로피=0 (완전 순수), C1=C2이면 최대 (이진: 1.0) 슬라이드와 동일한 값 → C1=1,C2=5: 0.65 / C1=2,C2=4: 0.92

계산 ★★★

📖 챕터 3 — 분류: 기본 개념과 기법

부모 노드 (C1=7, C2=5)를 문제 2와 동일한 방식으로 분할할 때의 정보 이득을 계산하라. (N1: C1=5, C2=1 / N2: C1=2, C2=4, 각 n=6) ---

📝 상세 풀이

① 부모 엔트로피: $$\text{Entropy}(p) = -\frac{7}{12}\log_2\frac{7}{12} - \frac{5}{12}\log_2\frac{5}{12}$$ $$= -0.583 \times (-0.778) - 0.417 \times (-1.263) = 0.454 + 0.527 = \mathbf{0.981}$$ ② 자식 엔트로피: $$\text{Entropy}(N1) = -\frac{5}{6}\log_2\frac{5}{6} - \frac{1}{6}\log_2\frac{1}{6} = 0.219 + 0.431 = 0.650$$ $$\text{Entropy}(N2) = -\frac{2}{6}\log_2\frac{2}{6} - \frac{4}{6}\log_2\frac{4}{6} = 0.528 + 0.390 = 0.918$$ ③ 정보 이득: $$\text{Gain} = 0.981 - \left(\frac{6}{12} \times 0.650 + \frac{6}{12} \times 0.918\right) = 0.981 - 0.784 = \mathbf{0.197}$$ 비교: 지니 이득 0.125 vs 정보 이득 0.197 → 두 척도 모두 같은 분할을 선호하지만 수치는 다름

객관식 ★★★

📖 챕터 3 — 분류: 기본 개념과 기법

부모 노드 (C1=7, C2=5, n=12)를 두 속성으로 분할할 때, 지니 이득이 더 큰 속성은? 속성 A: N1(C1=5, C2=1, n=6), N2(C1=2, C2=4, n=6) 속성 B: N1(C1=4, C2=2, n=6), N2(C1=3, C2=3, n=6) *(슬라이드 23 — 부모 노드와 속성 A 분할이 슬라이드 실제 데이터)* --- ### 핵심 공식 요약

	척도	공식
지지도 (Support)	$s(X \to Y) = \dfrac{\sigma(X \cup Y)}{\|T\|}$	X와 Y가 함께 나타나는 비율
신뢰도 (Confidence)	$c(X \to Y) = \dfrac{\sigma(X \cup Y)}{\sigma(X)}$	X가 있을 때 Y가 있을 조건부 확률
향상도 (Lift/Interest)	$\text{Lift}(X \to Y) = \dfrac{P(Y\|X)}{P(Y)} = \dfrac{c(X \to Y)}{s(Y)}$	1 초과: 양의 상관, 1 미만: 음의 상관

--- ### 기본 거래 데이터 (챕터 4 전체 문제 공용)

	TID	구매 품목
1	Bread, Milk
2	Bread, Diaper, Beer, Eggs
3	Milk, Diaper, Beer, Coke
4	Bread, Milk, Diaper, Beer
5	Bread, Milk, Diaper, Coke

*(슬라이드 3~7 — Definition: Frequent Itemset & Association Rule)* ---

①

속성 A ② 속성 B ③ 동일 ④ 판단 불가

①

속성 A ② 속성 B ③ 동일 ④ 판단 불가

①

속성 A ② 속성 B ③ 동일 ④ 판단 불가

①

속성 A ② 속성 B ③ 동일 ④ 판단 불가

📝 상세 풀이

부모 지니 (슬라이드 23 값): $$\text{Gini}(p) = 1 - \left(\frac{7}{12}\right)^2 - \left(\frac{5}{12}\right)^2 = \frac{70}{144} \approx \mathbf{0.486}$$ 속성 A ← 슬라이드 23 실제 분할: - Gini(N1) = 1 - (5/6)² - (1/6)² = 10/36 = 0.278 - Gini(N2) = 1 - (2/6)² - (4/6)² = 16/36 = 0.444 - Gini_split(A) = 6/12 × 0.278 + 6/12 × 0.444 = 0.361 - Gain(A) = 0.486 − 0.361 = 0.125 속성 B ← 비교 분할: - Gini(N1) = 1 - (4/6)² - (2/6)² = 16/36 = 0.444 - Gini(N2) = 1 - (3/6)² - (3/6)² = 0.500 - Gini_split(B) = 6/12 × 0.444 + 6/12 × 0.500 = 0.472 - Gain(B) = 0.486 − 0.472 = 0.014 정답: ① 속성 A (이득 0.125 ≫ 0.014) 슬라이드 23의 분할이 지니 이득이 훨씬 크다. 속성 B는 자식이 여전히 불순하여 거의 개선이 없다.

계산 ★★

📖 챕터 4 — 연관 분석

위 거래 데이터에서 규칙 {Milk, Diaper} → {Beer}의 지지도와 신뢰도를 구하라. ---

📝 상세 풀이

① 아이템셋 빈도 파악:

	아이템셋	포함 TID
{Milk, Diaper, Beer}	3, 4	2
{Milk, Diaper}	3, 4, 5	3
{Beer}	2, 3, 4	3

② 지지도: $$s(\{Milk, Diaper\} \to \{Beer\}) = \frac{\sigma(\{Milk, Diaper, Beer\})}{|T|} = \frac{2}{5} = \mathbf{0.4}$$ ③ 신뢰도: $$c = \frac{\sigma(\{Milk, Diaper, Beer\})}{\sigma(\{Milk, Diaper\})} = \frac{2}{3} \approx \mathbf{0.667}$$ 해석: 5개 거래 중 40%에서 세 품목이 함께 구매되며, Milk·Diaper를 산 고객의 67%가 Beer도 구매한다.

계산 ★★★

📖 챕터 4 — 연관 분석

문제 6의 규칙에 대해 향상도(Lift)를 계산하고, 통계적 의미를 해석하라. ---

📝 상세 풀이

$$s(\{Beer\}) = \frac{3}{5} = 0.6$$ $$\text{Lift} = \frac{c(\{Milk,Diaper\} \to \{Beer\})}{s(\{Beer\})} = \frac{2/3}{3/5} = \frac{2}{3} \times \frac{5}{3} = \frac{10}{9} \approx \mathbf{1.11}$$ 해석: - Lift > 1 → Milk·Diaper를 산 고객이 Beer를 살 확률이 전체 평균보다 11% 높음 - Lift = 1 → 독립 (연관 없음) - Lift < 1 → 음의 연관 (상호 억제) 이 규칙은 실제로 유의미한 양의 연관이 있다.

계산 ★★★

📖 챕터 4 — 연관 분석

다음 분할표에서 Tea → Coffee 규칙의 Lift를 계산하고, 이 규칙이 유의미한지 판단하라.

	Coffee	¬Coffee	합계
Tea	150	50	200
¬Tea	650	150	800
합계	800	200	1000

*(슬라이드 56~62 — Drawback of Confidence, Lift)* ---

①

Lift > 1, 유의미

②

Lift < 1, 유의미하지 않음 (음의 연관)

③

Lift = 1, 독립

④

Confidence만으로 판단 불가

①

Lift > 1, 유의미

②

Lift < 1, 유의미하지 않음 (음의 연관)

③

Lift = 1, 독립

④

Confidence만으로 판단 불가

①

Lift > 1, 유의미

②

Lift < 1, 유의미하지 않음 (음의 연관)

③

Lift = 1, 독립

④

Confidence만으로 판단 불가

①

Lift > 1, 유의미

②

Lift < 1, 유의미하지 않음 (음의 연관)

③

Lift = 1, 독립

④

Confidence만으로 판단 불가

📝 상세 풀이

$$\text{Confidence} = P(\text{Coffee}|\text{Tea}) = \frac{150}{200} = 0.75$$ $$P(\text{Coffee}) = \frac{800}{1000} = 0.8$$ $$\text{Lift} = \frac{P(\text{Coffee}|\text{Tea})}{P(\text{Coffee})} = \frac{0.75}{0.8} = \mathbf{0.9375}$$ 또는: $\text{Interest} = \frac{f_{11}}{N} \div \frac{f_{1+} \times f_{+1}}{N^2} = \frac{150/1000}{(200/1000) \times (800/1000)} = \frac{0.15}{0.16} = 0.9375$ Lift < 1 → 정답: ② 핵심: Confidence=0.75로 높아 보이지만, Coffee를 사는 전체 확률(0.8)이 더 높다. 즉, Tea를 산다는 사실이 Coffee 구매 확률을 오히려 낮춘다 (음의 연관). Confidence만 보면 오해할 수 있어 Lift(향상도)를 반드시 함께 확인해야 한다.

계산 ★★★

📖 챕터 4 — 연관 분석

아래 거래 데이터(슬라이드 15~19 실제 데이터)에서 minsup=3(60%), minconf=0.75일 때, (1) 빈번 1·2-아이템셋을 모두 구하라. (2) 빈번 2-아이템셋에서 minconf를 만족하는 연관규칙을 모두 생성하라.

	TID	구매 품목
1	Bread, Milk
2	Bread, Diaper, Beer, Eggs
3	Milk, Diaper, Beer, Coke
4	Bread, Milk, Diaper, Beer
5	Bread, Milk, Diaper, Coke

*(슬라이드 15~19 — Illustrating Apriori Principle, Minimum Support = 3)* --- ### 핵심 공식 요약

	항목	공식	의미
SSE	$\text{SSE} = \sum_{i=1}^{K} \sum_{x \in C_i} \text{dist}^2(m_i, x)$	클러스터 내 분산 합 (낮을수록 좋음)
센트로이드	$m_k = \dfrac{1}{	C_k	} \sum_{x \in C_k} x$	클러스터 평균 (유클리드 거리 기준)
거리 배정	각 점을 가장 가까운 센트로이드에 배정	—

---

📝 상세 풀이

① 1-아이템셋 (σ ≥ 3):

	아이템	포함 TID	σ
Bread	1,2,4,5	4	✅
Milk	1,3,4,5	4	✅
Beer	2,3,4	3	✅
Diaper	2,3,4,5	4	✅
Coke	3,5	2	❌
Eggs	2	1	❌

빈번 1-아이템셋: {Bread}(4), {Milk}(4), {Beer}(3), {Diaper}(4) ② 2-아이템셋 (빈번 1-아이템셋 조합, 슬라이드 17~19 값):

	아이템셋	포함 TID	σ
{Bread, Milk}	1,4,5	3	✅
{Bread, Beer}	2,4	2	❌
{Bread, Diaper}	2,4,5	3	✅
{Milk, Beer}	3,4	2	❌
{Milk, Diaper}	3,4,5	3	✅
{Beer, Diaper}	2,3,4	3	✅

빈번 2-아이템셋: {Bread,Milk}, {Bread,Diaper}, {Milk,Diaper}, {Beer,Diaper} ③ 연관규칙 생성 (minconf=0.75):

	규칙	σ(LHS∪RHS)/σ(LHS)	Confidence
Bread → Milk	3/4	0.75	✅
Milk → Bread	3/4	0.75	✅
Bread → Diaper	3/4	0.75	✅
Diaper → Bread	3/4	0.75	✅
Milk → Diaper	3/4	0.75	✅
Diaper → Milk	3/4	0.75	✅
Beer → Diaper	3/3	1.00	✅
Diaper → Beer	3/4	0.75	✅

생성된 연관규칙 8개 (지지도 모두 s=3/5=0.6) 특히 Beer → Diaper는 Confidence=1.0 — Beer를 산 고객은 반드시 Diaper도 구매했다.

계산 ★★

📖 챕터 5 — 군집 분석

다음 1차원 데이터에 대해 K=2, 초기 센트로이드 m1=1, m2=5로 K-means를 실행하라. 1회 반복 후의 새 센트로이드와 수렴 여부를 판단하라. 데이터: 1, 2, 4, 5 ---

📝 상세 풀이

① 초기 배정 (각 점을 더 가까운 센트로이드에 배정):

	데이터	dist to m1=1	dist to m2=5
1	0	4	C1
2	1	3	C1
4	3	1	C2
5	4	0	C2

② 센트로이드 갱신: $$m_1' = \frac{1+2}{2} = \mathbf{1.5}, \quad m_2' = \frac{4+5}{2} = \mathbf{4.5}$$ ③ 2회차 배정 확인 (수렴 검증):

	데이터	dist to m1=1.5	dist to m2=4.5
1	0.5	3.5	C1
2	0.5	2.5	C1
4	2.5	0.5	C2
5	3.5	0.5	C2

배정 변화 없음 → 수렴 완료 최종: C1={1,2}, m1=1.5 / C2={4,5}, m2=4.5

계산 ★★

📖 챕터 5 — 군집 분석

문제 10의 최종 클러스터에 대해 SSE를 계산하라. ---

📝 상세 풀이

$$\text{SSE}(C1) = (1-1.5)^2 + (2-1.5)^2 = 0.25 + 0.25 = 0.5$$ $$\text{SSE}(C2) = (4-4.5)^2 + (5-4.5)^2 = 0.25 + 0.25 = 0.5$$ $$\text{SSE}_{total} = 0.5 + 0.5 = \mathbf{1.0}$$ 해석: SSE는 낮을수록 각 클러스터가 컴팩트함을 의미한다. K를 늘리면 SSE는 항상 감소하지만 해석 가능성이 떨어지므로 적정 K를 선택해야 한다.

계산 ★★★

📖 챕터 5 — 군집 분석

다음 4개의 점에 대해 K=2, 초기 센트로이드 m1=(1,1), m2=(6,4)로 K-means를 실행하고 최종 SSE를 구하라.

	점	좌표
A	(1, 1)
B	(2, 2)
C	(5, 5)
D	(6, 4)

---

📝 상세 풀이

① 초기 배정 (유클리드 거리 사용):

	점	dist to m1=(1,1)	dist to m2=(6,4)
A(1,1)	0	$\sqrt{25+9}=\sqrt{34}\approx5.83$	C1
B(2,2)	$\sqrt{1+1}=\sqrt{2}\approx1.41$	$\sqrt{16+4}=\sqrt{20}\approx4.47$	C1
C(5,5)	$\sqrt{16+16}=\sqrt{32}\approx5.66$	$\sqrt{1+1}=\sqrt{2}\approx1.41$	C2
D(6,4)	$\sqrt{25+9}=\sqrt{34}\approx5.83$	0	C2

② 센트로이드 갱신: $$m_1' = \left(\frac{1+2}{2},\; \frac{1+2}{2}\right) = \mathbf{(1.5,\; 1.5)}$$ $$m_2' = \left(\frac{5+6}{2},\; \frac{5+4}{2}\right) = \mathbf{(5.5,\; 4.5)}$$ ③ 2회차 배정 — 동일 → 수렴 완료 ④ SSE 계산: *C1 = {A(1,1), B(2,2)}, m1=(1.5, 1.5)* $$\text{SSE}(C1) = [(1-1.5)^2+(1-1.5)^2] + [(2-1.5)^2+(2-1.5)^2]$$ $$= [0.25+0.25] + [0.25+0.25] = 0.5 + 0.5 = 1.0$$ *C2 = {C(5,5), D(6,4)}, m2=(5.5, 4.5)* $$\text{SSE}(C2) = [(5-5.5)^2+(5-4.5)^2] + [(6-5.5)^2+(4-4.5)^2]$$ $$= [0.25+0.25] + [0.25+0.25] = 0.5 + 0.5 = 1.0$$ $$\boxed{\text{SSE}_{total} = 1.0 + 1.0 = \mathbf{2.0}}$$

객관식 ★★

📖 챕터 5 — 군집 분석

K-means에서 SSE를 최소화하는 센트로이드는 무엇인가? --- ### 지니 vs 엔트로피 비교

	항목	지니 지수
수식	$1 - \sum p_i^2$	$-\sum p_i \log_2 p_i$
최솟값	0 (순수)	0 (순수)
최댓값 (이진)	0.5 (p=0.5)	1.0 (p=0.5)
계산 속도	빠름 (log 없음)	느림
사용 알고리즘	CART	ID3, C4.5

### 연관 규칙 수치 판단 기준

	Lift 값	의미
> 1	양의 연관	유의미
= 1	독립	무의미
< 1	음의 연관	오해 유발 가능

> 주의: Confidence가 높아도 Lift < 1이면 규칙이 오히려 역효과 > (예: Tea→Coffee, Conf=0.75이지만 Lift=0.9375) ### K-means 실수 방지 포인트 1. 수렴 조건: 센트로이드가 변하지 않으면 수렴 (배정 변화 없음) 2. SSE 공식: 거리의 제곱합 — 유클리드 거리가 아닌 거리² 3. 초기값 의존성: 초기 센트로이드에 따라 결과가 달라질 수 있음 → K-means++ 사용 4. 센트로이드 = 평균: Manhattan 거리일 때는 중앙값(median)

①

클러스터 내 중간값(median)

②

클러스터 내 최빈값(mode)

③

클러스터 내 평균값(mean)

④

가장 밀도가 높은 점

①

클러스터 내 중간값(median)

②

클러스터 내 최빈값(mode)

③

클러스터 내 평균값(mean)

④

가장 밀도가 높은 점

①

클러스터 내 중간값(median)

②

클러스터 내 최빈값(mode)

③

클러스터 내 평균값(mean)

④

가장 밀도가 높은 점

①

클러스터 내 중간값(median)

②

클러스터 내 최빈값(mode)

③

클러스터 내 평균값(mean)

④

가장 밀도가 높은 점

📝 상세 풀이

정답: ③ $\text{SSE} = \sum_{x \in C_k}(c_k - x)^2$를 $c_k$로 편미분하면: $$\frac{\partial}{\partial c_k}\text{SSE} = \sum_{x \in C_k} 2(c_k - x) = 0 \implies c_k = \frac{1}{|C_k|}\sum_{x \in C_k} x$$ 즉, SSE를 최소화하는 센트로이드는 클러스터 내 산술 평균(mean) 이다. Manhattan 거리를 쓸 경우에는 중간값(median)이 최적이다. (슬라이드 13, Table 5.2)

📋 종합 요약 — 시험 직전 체크리스트

지니 vs 엔트로피 비교

지니: 1 − Σpᵢ² (계산 빠름, CART 사용)
엔트로피: −Σpᵢlog₂pᵢ (계산 느림, ID3/C4.5)
둘 다 0=순수, 최대=균등분포
이진 분류 최대: 지니 0.5, 엔트로피 1.0

연관 규칙 수치 판단

Lift > 1: 양의 연관 (유의미)
Lift = 1: 독립 (무의미)
Lift < 1: 음의 연관 (주의)
Confidence만 보지 말고 Lift 필수 확인!

K-means 실수 방지

수렴: 센트로이드 변화 없음
SSE: 거리의 제곱합 (거리²)
센트로이드 = 평균 (유클리드 기준)
Manhattan 거리 시 중앙값(median)

공식 암기 팁

지니 = 1 − (양성비율² + 음성비율²)
엔트로피 = −p·log₂p 합
지지도 = 함께구매 / 전체거래
신뢰도 = 함께구매 / 조건구매

핵심 계산 문제

지니 vs 엔트로피 비교

연관 규칙 수치 판단

K-means 실수 방지

공식 암기 팁

📑 목차