기출 가능성 TOP 100 문제

Question 1

K-means 클러스터링 알고리즘이 효과적으로 작동하기 어렵거나 문제가 발생할 수 있는 상황으로 적절하지 않은 것은?

①

클러스터 간의 밀도(Density) 차이가 매우 큰 경우

②

클러스터의 모양이 구형(Globular shape)이 아닌 경우

③

데이터 세트에 아웃라이어(Outlier)가 포함되어 있는 경우

④

데이터 샘플에 대해 리니어(Linear)한 컴플렉서티를 가지는 경우

Answer

✅ 정답

데이터 샘플에 대해 리니어(Linear)한 컴플렉서티를 가지는 경우

📖 해설

리니어한 컴플렉서티를 가지는 것은 K-means가 상대적으로 빠르다는 장점이지 한계점이 아닙니다. 반면, 밀도 차이, 비구형 모양, 아웃라이어는 슬라이드와 강의에서 명시한 K-means의 대표적인 한계점입니다.

💡 근거

K-means has problems when clusters are of differing Sizes, Densities, Non-globular shapes. K-means has problems when the data contains outliers. / 왜냐하면 데이터 샘플에 대한 일선, 리니어한 컴플렉서티를 가지고 있기 때문에 상대적으로 빠르죠. ---

Question 2

히어러키컬 클러스터링의 두 가지 주요 유형은 무엇인가?

①

어글러머티브와 디바이시브

②

K-Means와 K-Medoids

③

Hierarchical와 Non-Hierarchical

④

Density-Based와 Grid-Based

Answer

✅ 정답

어글러머티브와 디바이시브

📖 해설

히어러키컬 클러스터링에는 어글러머티브와 디바이시브 두 가지 유형이 있습니다. 어글러머티브는 개별 데이터 포인트에서 시작하여 가장 가까운 클러스터를 합칩니다. 디바이시브는 모든 데이터 포인트를 포함하는 하나의 클러스터에서 시작하여 클러스터를 분할합니다.

💡 근거

Two main types of hierarchical clustering - Agglomerative: - Start with the points as individual clusters - At each step, merge the closest pair of clusters until only one cluster (or k clusters) left - Divisive: - Start with one, all-inclusive clust... ---

Question 3

Complete linkage(완전 연결) 방식에서 두 클러스터 사이의 거리는 어떻게 정의되는가?

Answer

✅ 정답

두 클러스터에 속한 모든 점 쌍 중 가장 먼 거리(최대 거리)

📖 해설

강의 발췌에서 "두 개를 머지를 먼저 해서… 이제 우리는 이것들 중에 가장 먼 거리에 있는 값을 두 클러스터 사이에 거리로 삼아야 되죠" 라고 설명한다. 따라서 Complete linkage는 최대 거리로 클러스터 간 거리를 정의한다.

💡 근거

두 개를 머지를 먼저 해서… 이제 우리는 이것들 중에 가장 먼 거리에 있는 값을 두 클러스터 사이에 거리로 삼아야 되죠. … 싱글 링크지에서는 가장 작은 값을 두 클러스터 사이에 거리로 했던 반면에, 이제는 두 값 중에 더 큰 값이 거리가 되겠죠. ---

Question 4

프리퀀트 아이템셋을 찾는 과정에서 Conditional FPTree를 구성하는 목적은 무엇인가요?

Answer

✅ 정답

프리퀀트 아이템셋을 찾기 위한 후보 아이템셋을 생성하는 것

📖 해설

Conditional FPTree를 구성하는 목적은 프리퀀트 아이템셋을 찾기 위한 후보 아이템셋을 생성하는 것입니다. 이 트리는 프리퀀트 아이템셋을 찾기 위한 후보 아이템셋을 생성하는 데 사용됩니다.

💡 근거

Conditional FPTree for E가 되겠습니다. ---

Question 5

아트리뷰트의 타입을 기준에 의해서 나눌 수 있는데, 그 중에 한 기준이 숫자로 표현이 되는 거냐, 몇 가지 범주에 속하는 값으로 표현이 되는 거냐에 따라서 어떤 두 가지로 나누어 볼 수 있나요?

①

Numeric Attribute, Categorical Attribute

②

Real Attribute, Imaginary Attribute

③

Discrete Attribute, Continuous Attribute

④

Ordinal Attribute, Nominal Attribute

Answer

✅ 정답

Numeric Attribute, Categorical Attribute

📖 해설

아트리뷰트의 타입을 나누는 기준 중 하나는 숫자로 표현되는지, 몇 가지 범주에 속하는 값으로 표현되는지에 따라 나눌 수 있습니다. Numeric Attribute는 숫자로 표현되는 아트리뷰트이고, Categorical Attribute는 범주에 속하는 값으로 표현되는 아트리뷰트입니다.

💡 근거

아트리뷰트의 타입을 기준에 의해서 나눌 수 있는데, 그 중에 한 기준이 숫자로 표현이 되는 거냐, 몇 가지 범주에 속하는 값으로 표현이 되는 거냐에 따라서 Numeric Attribute, Categorical Attribute 이렇게 두 가지로 나누어 볼 수 있습니다. ---

Question 6

바이너리 벡터 사이의 유사도를 측정하는 SMC(Simple Matching Coefficient)의 정의로 옳은 것은?

①

11 매치 수를 0이 아닌 어트리뷰트 수로 나눈 값

②

전체 어트리뷰트 수 중 같은 값을 가지는 경우의 비율

③

두 벡터가 모두 0인 경우만을 고려하여 계산한 유사도

④

0과 1의 차이를 무시하고 1의 개수만을 합산한 값

Answer

✅ 정답

전체 어트리뷰트 수 중 같은 값을 가지는 경우의 비율

📖 해설

SMC는 (f11 + f00) / (f01 + f10 + f11 + f00)로 계산되며, 이는 전체 어트리뷰트 중 매치되는(같은 값을 가지는) 수의 비율을 의미합니다. 1번 보기는 자카드 계수의 정의입니다.

💡 근거

SMC는 전체 어트리뷰트 중에서 같은 값을 가지는 경우가 몇 개가 있느냐는 것을 측정할 수 있습니다. ---

Question 7

강의 내용 중 Dissimilarity와 Distance의 관계에 대한 설명으로 가장 적절한 것은?

①

Dissimilarity와 Distance는 서로 반대되는 개념이다.

②

Distance 값이 클수록 두 데이터 샘플은 더 유사해진다.

③

Dissimilarity는 주로 0과 1 사이의 값으로만 표현된다.

④

Distance는 두 데이터 객체가 얼마나 다른가를 측정하는 Dissimilarity의 한 척도가 될 수 있다.

Answer

✅ 정답

Distance는 두 데이터 객체가 얼마나 다른가를 측정하는 Dissimilarity의 한 척도가 될 수 있다.

📖 해설

강의에서 Distance와 Dissimilarity는 데이터 샘플들이 서로 얼마나 다른가를 측정하는 척도라는 점에서 같은 개념으로 맞물려 볼 수 있다고 설명했습니다. Distance가 클수록 더 많이 달라지며, Dissimilarity는 0과 무한대(Infinite) 사이의 값으로 많이 표현됩니다.

💡 근거

Distance하고 Dissimilarity는 같은, 얼마나 서로 다른가 데이터 샘플들이 서로 두 개의 데이터 오직트가 얼마나 다른가를 측정하는 척도다. 이게 Dissimilarity가 되겠죠. 그 하나의 다른 척도가 Distance가 될 수 있겠고 ---

Question 8

K-means 클러스터링 알고리즘의 기본적인 과정은 무엇인가?

Answer

✅ 정답

초기 센트로이드 선택, 클러스터 할당, 센트로이드 업데이트, 반복

📖 해설

K-means 클러스터링 알고리즘은 초기 센트로이드를 선택한 후, 데이터 포인트를 가장 가까운 센트로이드에 할당하고, 센트로이드를 업데이트 하는 과정을 반복합니다. 이는 슬라이드에서 '알고리즘 자체는 굉장히 심플하죠.'라고 설명되어 있습니다.

💡 근거

알고리즘 자체는 굉장히 심플하죠. 맨 처음에 내가 K계의 클러스터로 쪼개겠다 하는 K값을 인풋으로 해서 INITIAL CENTROID를 선택한다. ---

Question 9

모델 성능 평가 방법 중 'k-fold cross validation'에 대한 설명으로 가장 옳은 것은?

①

전체 데이터를 트레이닝과 테스트로 한 번만 나누어 성능을 측정한다.

②

전체 데이터를 k개의 조각으로 나누고, k-1개의 파티션으로 학습하고 나머지 하나로 테스트하는 과정을 k번 반복한다.

③

데이터 샘플이 n개일 때, 항상 n개의 파티션으로 나누어 하나의 샘플만 테스트로 사용하는 방법이다.

④

트레이닝 데이터에 어떤 샘플이 쓰이느냐에 관계없이 항상 동일한 모델 구성과 성능이 도출되는 방법이다.

Answer

✅ 정답

전체 데이터를 k개의 조각으로 나누고, k-1개의 파티션으로 학습하고 나머지 하나로 테스트하는 과정을 k번 반복한다.

📖 해설

k-fold cross validation은 데이터를 k개의 조각으로 나누어 k-1개로 학습하고 1개로 테스트하는 과정을 k번 반복하여 평균 성능을 내는 방법입니다. 1번은 일반적인 holdout, 3번은 leave-one-out에 대한 설명이며, 4번은 트레이닝 샘플에 따라 모델 구성과 성능이 달라질 수 있다는 강의 내용과 배치됩니다.

💡 근거

k-1개의 파티션에 대해서 트레이닝을 해주고 나머지 하나에 대해서 테스트를 사용하는 몇 번을 반복하냐 각각의 조각들이 한 번은 테스트로 사용될 수 있게 반복을 한다는 거죠. 총 k개의 subset이 있으니까 각각의 subset이 한 번씩 테스트 데이터로 사용되게 하려면 결국은 k번 이거를 반복을 해야 되는 거죠. ---

Question 10

Clustering을 수행할 때 추구되는 거리 관계는 무엇인가?

①

클러스터 내부 거리(Intra-cluster distance)는 최소화하고, 클러스터 간 거리(Inter-cluster distance)는 최대화한다.

②

클러스터 내부 거리와 클러스터 간 거리 모두를 최소화한다.

③

클러스터 내부 거리와 클러스터 간 거리 모두를 최대화한다.

④

클러스터 내부 거리를 최대화하고, 클러스터 간 거리를 최소화한다.

Answer

✅ 정답

클러스터 내부 거리(Intra-cluster distance)는 최소화하고, 클러스터 간 거리(Inter-cluster distance)는 최대화한다.

📖 해설

강의 발췌에서 ‘Intercluster, Cluster 간의 Distance, 거리는 Maximize… Intracluster, Cluster 내에서의 거리는 … 최소화시키는’이라고 명시되어 있다. 따라서 정답은 내부 거리 최소화·외부 거리 최대화이다. 다른 선택지는 거리 관계를 반대로 제시하거나 둘 다 최소/최대로 잘못 기술하고 있어 틀렸다.

💡 근거

Intercluster, Cluster 간의 Distance, 거리는 Maximize, 최대화되게 만들고 싶고 Intracluster, Cluster 내에서의 거리는 ... 최소화시키는 ---

Question 11

Discretization은 어떤 목적으로 사용되는가?

①

연속 속성을 이산 속성으로 변환하기 위해

②

이산 속성을 연속 속성으로 변환하기 위해

③

클래스 레이블을 예측하기 위해

④

클러스터링을 수행하기 위해

Answer

✅ 정답

연속 속성을 이산 속성으로 변환하기 위해

📖 해설

Discretization은 연속 속성을 이산 속성으로 변환하는 것을 의미하며, 이는 데이터를 더 쉽게 분석하고 처리하기 위해 사용됩니다. 연속 속성을 이산 속성으로 변환하면 데이터를 더 쉽게 분류하고 예측할 수 있습니다.

💡 근거

Discretization: transforming a continuous attribute into an ordinal attribute ---

Question 12

나이브 베이즈 분류기(Naïve Bayes Classifier)를 사용하여 테스트 레코드 X의 클래스를 예측할 때, 분모인 P(X)를 정확히 모르더라도 클래스를 결정할 수 있는 이유는 무엇입니까?

①

P(X)가 항상 1로 가정되기 때문에

②

모든 클래스에 대해 분모 P(X)가 동일하므로 분자의 크기만 비교하면 되기 때문에

③

Prior Probability가 P(X)의 값을 대체하기 때문에

④

테스트 데이터의 Missing Value가 P(X)에 영향을 주지 않기 때문에

Answer

✅ 정답

모든 클래스에 대해 분모 P(X)가 동일하므로 분자의 크기만 비교하면 되기 때문에

📖 해설

강의 발췌 내용에 따르면 분모 양쪽에 받쳐지는 P(X)는 동일하므로, 크기 비교 시에는 이를 고려하지 않고 분자의 크기만 비교하여 예측 클래스를 결정할 수 있습니다.

💡 근거

이 분모 양쪽에 받쳐지는 건 똑같이 px 에요 이렇게 그러니까 크기 비교할 때는 똑같은 값은 생각을 안 해도 되는 거죠 그래서 분자의 크기만 비교를 할 수가 있다 하는 거죠 ---

Question 13

슬라이드와 강의 내용에 근거할 때, 데이터 마이닝(Data Mining)에 대한 설명으로 가장 적절한 것은 무엇입니까?

①

데이터를 수동으로만 분석하여 정보를 추출하는 과정이다.

②

데이터로부터 암시적이고 이전에 알려지지 않았으며 잠재적으로 유용한 정보를 비자명하게 추출하는 것이다.

③

데이터 전처리는 필수 단계이므로 생략할 수 없다.

④

기계학습이나 패턴 인식과는 완전히 독립적인 별개의 학문이다.

Answer

✅ 정답

데이터로부터 암시적이고 이전에 알려지지 않았으며 잠재적으로 유용한 정보를 비자명하게 추출하는 것이다.

📖 해설

데이터 마이닝은 자동적 또는 반자동적 수단으로 유용한 정보를 추출하는 것이며, 강의에서 전처리는 옵션으로 주어져 있다고 언급되었습니다. 또한 기계학습, 딥러닝, 패턴 인식 등과 많은 내용을 공유하고 있습니다.

💡 근거

Non-trivial extraction of implicit, previously unknown and potentially useful information from data ---

Question 14

차원의 저주(The Curse of Dimensionality)가 발생했을 때 나타나는 현상으로 가장 적절한 것은?

①

데이터 포인트 간의 최대 거리와 최소 거리의 차이가 상대적으로 커진다.

②

차원이 증가함에 따라 데이터가 공간 내에서 점점 더 촘촘하게(dense) 배치된다.

③

데이터 포인트 간의 거리 기반 구분이나 밀도 정의가 덜 의미 있게 된다.

④

데이터 샘플의 수가 증가하면 차원과 관계없이 거리 기반 알고리즘의 효율성이 항상 유지된다.

Answer

✅ 정답

데이터 포인트 간의 거리 기반 구분이나 밀도 정의가 덜 의미 있게 된다.

📖 해설

차원이 증가하면 데이터가 희소(sparse)해지며, 최대 거리와 최소 거리의 차이가 줄어들어 거리 기반의 구분이나 밀도 정의가 덜 의미 있게 됩니다. 1번은 차원이 증가할수록 거리 차이가 줄어들므로 틀렸으며, 2번은 데이터가 더 듬성듬성(sparse)해지므로 틀렸습니다. 4번은 고차원 공간에서 거리 기반 알고리즘이 의미가 없을 수 있다는 내용과 상충합니다.

💡 근거

Definitions of density and distance between points, which is critical for clustering and outlier detection, become less meaningful ---

Question 15

계층적 군집 분석(Hierarchical Clustering)에서 사용자가 원하는 수의 클러스터를 얻기 위해 덴드로그램(dendrogram)의 적절한 레벨에서 수행해야 하는 작업은 무엇입니까?

Answer

✅ 정답

커팅 (또는 잘라내기)

📖 해설

계층적 군집 분석은 미리 클러스터 수를 설정할 필요가 없으며, 형성된 덴드로그램을 적절한 레벨에서 커팅(cutting)함으로써 원하는 수의 클러스터를 얻을 수 있습니다.

💡 근거

Any desired number of clusters can be obtained by ‘cutting’ the dendrogram at the proper level ---

Question 16

차원 축소(Dimensionality Reduction)의 목적으로 적절하지 않은 것은?

①

차원의 저주(curse of dimensionality)를 피하기 위함

②

데이터 마이닝 알고리즘에 필요한 시간과 메모리 양을 줄이기 위함

③

데이터의 시각화를 더 쉽게 만들기 위함

④

데이터의 모든 피처를 보존하여 정보 손실을 완전히 없애기 위함

Answer

✅ 정답

데이터의 모든 피처를 보존하여 정보 손실을 완전히 없애기 위함

📖 해설

차원 축소는 무관한 피처를 제거하거나 노이즈를 줄이는 것이 목적이며, 모든 피처를 보존하는 것이 아니라 차원을 낮추는 기법입니다. 나머지 보기들은 슬라이드와 강의에서 언급된 차원 축소의 주요 목적입니다.

💡 근거

Purpose: Avoid the curse of dimensionality, Reduce amount of time and memory required by data mining algorithms, Allow data to be more easily visualized, May help to eliminate irrelevant features or reduce noise ---

Question 17

강의 내용에 기반하여, 데이터 전처리 과정에서 Normalization(정규화)을 수행하는 주된 이유로 가장 적절한 것은?

①

속성 값의 절대적인 크기를 무조건 작게 만들기 위해서

②

속성들 간의 스케일 차이가 클 때 이를 맞추어 유클리디언 디스턴스 등을 계산하기 위해서

③

모든 속성 값을 로그 함수(log(x))를 통해 동일한 분포로 변환하기 위해서

④

데이터 오브젝트의 개수를 줄여 계산 복잡도를 낮추기 위해서

Answer

✅ 정답

속성들 간의 스케일 차이가 클 때 이를 맞추어 유클리디언 디스턴스 등을 계산하기 위해서

📖 해설

강의에서 키와 몸무게의 예시를 통해 속성 간 스케일이 크게 차이 날 경우 스케일을 맞춰놓고 유클리디언 디스턴스를 수행할 필요가 있다고 설명했습니다. 단순히 값을 작게 만들거나 로그 변환을 하는 것이 목적이 아니며, 데이터 개수를 줄이는 것과도 무관합니다.

💡 근거

아트리비트들 간의 스케일이 크게 차이가 난다면, 스케일을 맞춰 놓고 그 다음에 유클리디언 디스턴스를 할 수도 있다. ---

Question 18

주성분 분석(PCA)의 주요 목적과 방법으로 옳은 것은 무엇입니까?

①

데이터의 분산이 가장 작은 방향을 찾아 프로젝션한다.

②

데이터의 분산이 가장 큰 방향을 찾아 프로젝션함으로써 정보 손실을 최소화하며 차원을 감소시킨다.

③

데이터 포인트 간의 유사도(Similarity)를 0으로 만들어 차원을 축소한다.

④

데이터의 모든 정보를 완전히 보존하면서 2차원 데이터를 1차원으로 변환한다.

Answer

✅ 정답

데이터의 분산이 가장 큰 방향을 찾아 프로젝션함으로써 정보 손실을 최소화하며 차원을 감소시킨다.

📖 해설

PCA는 데이터의 분산이 가장 큰 방향(주성분)을 찾아 그 방향으로 프로젝션함으로써 정보 손실(Information Loss)을 최소화하며 차원을 감소시키는 방법입니다. 분산이 작은 방향을 찾는 것은 목적에 어긋나며, 차원 감소 시 정보 손실을 완전히 없애는 것이 아니라 최소화하는 것입니다.

💡 근거

데이터에서 Variation. 분산이 가장 큰 방향이 어디냐? 그 방향을 찾아서 그 방향으로 프로젝션을 하면 데이터에 있는 정보를 잃어버리는 것을 최소화하면서 이게 Information Loss라고 얘기하죠. 정보 손실을 최소화하면서 데이터의 차원을 감소시킬 수 있는 방법이 PCA다. ---

Question 19

베이시안(나이브) 분류기에서 $P(X\mid Yes)$와 $P(X\mid No)$를 추정하는 방법은 무엇이며, 이를 위해 어떤 가정을 사용하나요?

Answer

✅ 정답

각 속성을 독립이라고 가정하고, $P(X\mid Yes)=P(Refund=No\mid Yes)\times P(Marital=Divorced\mid Yes)\times P(Income=120K\mid Yes)$와 같이 개별 조건부 확률을 곱한다. $P(X\mid No)$도 동일하게 각 속성에 대해 곱한다.

📖 해설

강의에서는 속성들이 서로 독립이라고 가정해 각각의 조건부 확률을 구한 뒤 곱한다는 점을 강조한다. 이는 조인트 확률을 직접 추정하는 복잡성을 크게 줄인다. 독립 가정이 없으면 모든 조합에 대한 확률을 별도로 추정해야 하므로 데이터와 계산량이 급증한다.

💡 근거

attribute 값이 나타날 확률은 이제 따로 따로 yes 클래스에서 refund가 no일 확률 yes 클래스에서 divorced 일 확률 yes 클래스에서 income이 121 확률 그래서 이 각각을 구해서 곱해주면 된다 마찬가지로 no 클래스에서도 각각을 구해서 곱해주면 되겠네요 ---

Question 20

제시된 테스트 데이터(Home Owner: No, Marital Status: Married, Annual Income: 80K)를 의사결정나무 모델에 적용했을 때, 최종적으로 예측되는 'Defaulted Borrower'의 값은 무엇입니까?

Answer

✅ 정답

No

📖 해설

테스트 데이터의 Home Owner 값이 'No'이고 Marital Status가 'Married'이므로, 해당 경로를 따라 내려가면 최종 결과 노드인 'No'에 도달하게 됩니다.

💡 근거

Home Owner $\rightarrow$ No, MarSt $\rightarrow$ Married $\rightarrow$ NO (결과) ---

Question 21

계층적 군집화(Hierarchical Clustering)에서 데이터 포인트들이 병합되거나 분할되는 순서를 기록하여 트리 형태로 시각화한 다이어그램을 무엇이라고 하는지 쓰시오.

Answer

✅ 정답

덴드로그램

📖 해설

슬라이드와 강의 내용에 따르면, 계층적 군집화의 결과를 나타내는 트리 형태의 다이어그램을 덴드로그램(Dendrogram)이라고 부릅니다.

💡 근거

이 그림을 특별히 우리가 덴드로그램이라고 부르죠. ---

Question 22

Candidate Pruning의 목적과 과정은 무엇인가?

Answer

✅ 정답

Candidate Pruning은 임프리퀀트한 서브셋을 포함하는 후보 아이템셋을 제거하는 과정으로, 최종적으로는 빈번한 아이템셋을 찾는 데 도움이 된다.

📖 해설

Candidate Pruning은 임프리퀀트한 서브셋을 포함하는 후보 아이템셋을 제거하여 최종적으로 빈번한 아이템셋을 찾는 데 도움이 된다. 이 과정은 L4를 생성하고, 임프리퀀트한 서브셋을 포함하는 후보 아이템셋을 제거하여 최종적으로 빈번한 아이템셋을 찾는 데 사용된다.

💡 근거

Candidate pruning - Prune ABCE because ACE and BCE are infrequent - Prune ABDE because ADE is infrequent ---

Question 23

연속 속성을 처리하는 방법 중 하나인 Discretization의 두 가지 접근 방식은 무엇인가?

Answer

✅ 정답

정적 디스크리타이제이션과 동적 디스크리타이제이션, 이골 인터벌과 equal frequency bucketing

📖 해설

Discretization은 연속 속성을 처리하는 방법 중 하나로, 정적 디스크리타이제이션과 동적 디스크리타이제이션 두 가지 접근 방식이 있습니다. 또한, 이골 인터벌과 equal frequency bucketing을 사용하여 디스크리타이제이션을 수행할 수 있습니다.

💡 근거

static 로 디스크리타이저이션을 할 거냐 다이너믹하게 할 것이냐 ---

Question 24

제시된 예제 데이터(총 10개의 샘플)에서 클래스 레이블 'Yes'의 확률 $P(\text{Yes})$를 계산하면 얼마인지 쓰시오.

Answer

✅ 정답

3/10

📖 해설

전체 데이터 10개 중 Evade가 Yes인 샘플은 3개(Tid 5, 8, 10)이므로, 확률은 10분의 3이 됩니다.

💡 근거

지금 데이터는 10개가 주어져 있는데요. Yes는 1, 2, 3개가 주어져 있어요. 그러면 Yes의 확률을 10분의 3으로 놓고 No의 확률을 10분의 7로 놓겠다. ---

Question 25

Document Clustering의 목적은 무엇인가?

①

문서의 중요한 키워드를 추출하는 것

②

문서의 길이를 계산하는 것

③

유사한 문서들을 그룹화하는 것

④

문서의 작성자를 식별하는 것

Answer

✅ 정답

유사한 문서들을 그룹화하는 것

📖 해설

Document Clustering은 문서에 나타나는 중요한 키워드를 기반으로 문서들을 유사한 그룹으로 분류하는 것을 목적으로 합니다. 이를 통해 같은 주제에 속하는 문서들을 함께 그룹화할 수 있습니다.

💡 근거

Document Clustering, 그러면 우리가 많이 얘기하는 게 스포츠 분야에 대한 Document, 정치, Politics에 관한 Document, 그냥 매일매일 나오는 그 뉴스들을 각각의 카테고리에 맞게 분리해내는 것 ---

Question 26

DBSCAN 알고리즘이 가지는 주요 장점 두 가지를 서술하시오.

Answer

✅ 정답

노이즈에 강하며(Resistant to Noise), 서로 다른 형태와 크기의 클러스터를 처리할 수 있다.

📖 해설

슬라이드와 강의 내용에 따르면 DBSCAN은 노이즈 포인트들을 클러스터 멤버십에서 제외하여 노이즈에 강한 면이 있으며, 글로벌한 형태에 연연하지 않고 다양한 형태와 사이즈의 클러스터를 잘 다룰 수 있는 장점이 있습니다.

💡 근거

Resistant to Noise, Can handle clusters of different shapes and sizes ---

Question 27

제시된 예제에서 환자가 목이 뻣뻣한 증상(S)을 가졌을 때, 뇌수막염(M)에 걸렸을 확률 P(M|S)의 값은 얼마인가?

Answer

✅ 정답

0.0002

📖 해설

베이즈 정리에 따라 P(M|S) = [P(S|M)P(M)] / P(S) 식에 0.5 * (1/50,000) / (1/20)를 대입하여 계산하면 0.0002가 도출됩니다.

💡 근거

P(M | S) = \frac{P(S | M)P(M)}{P(S)} = \frac{0.5 \times 1/50000}{1/20} = 0.0002 ---

Question 28

빈번 아이템셋(Frequent Itemset)의 컴팩트한 표현 방법 중, 모든 다른 빈번 아이템셋을 유추할 수 있게 해주지만 서포트 카운트(Support Count)에 대한 정보는 제공하지 않는 개념은 무엇인지 쓰시오.

Answer

✅ 정답

맥시멀 프리퀀트 아이템셋 (Maximal frequent itemset)

📖 해설

맥시멀 프리퀀트 아이템셋은 이를 통해 모든 다른 빈번 아이템셋을 생성할 수 있어 컴팩트한 표현이 가능하지만, 서포트 카운트 정보는 주지 않는다는 단점이 있습니다. 반면 클로즈드 아이템셋은 서포트 카운트 정보까지 제공할 수 있는 표현 방법입니다.

💡 근거

맥시멀 프리퀀트 아이템셋으로부터 모든 다른 프리퀀트 아이템셋이 다 유추가 될 수가 있어요. ... 그런데 맥시멀 프리퀀트 아이템셋의 단점은 이게 프리퀀트하다는 것은 알겠어요. 그런데 서포트가 얼마인지는 모르겠어요. 서포트에 대한 정보는 주지를 않는다는 거죠. ---

Question 29

ROC 곡선을 그리기 위해서 분류기(classifier)가 생성해야 하는 출력값의 형태는 무엇입니까?

Answer

✅ 정답

continuous-valued output

📖 해설

슬라이드 159에 따르면 ROC 곡선을 그리기 위해서는 분류기가 연속적인 값의 출력(continuous-valued output)을 생성해야 하며, 이를 통해 테스트 레코드를 순위 매길 수 있습니다.

💡 근거

To draw ROC curve, classifier must produce continuous-valued output ---

Question 30

후보 아이템셋(Candidate Itemset)의 서포트를 계산하기 위해 모든 후보 아이템셋을 모든 트랜잭션과 비교하는 작업은 연산 비용이 매우 높습니다. 이러한 작업을 무엇이라고 표현합니까?

Answer

✅ 정답

expensive operation

📖 해설

슬라이드와 강의 내용에 따르면, 모든 후보 아이템셋을 모든 트랜잭션에 대해 매칭하여 서포트를 계산하는 과정은 m 곱하기 n번의 매칭이 일어나므로 'expensive operation(비싼 오퍼레이션)'이라고 설명하고 있습니다.

💡 근거

Must match every candidate itemset against every transaction, which is an expensive operation ---

Question 31

DBSCAN 알고리즘에서 보더 포인트(border point)는 최종적으로 어떻게 처리됩니까?

Answer

✅ 정답

연관된 코어 포인트의 클러스터 중 하나로 할당(assign)된다

📖 해설

DBSCAN 알고리즘의 마지막 단계에서 보더 포인트는 자신과 연관된 코어 포인트가 속한 클러스터 중 하나에 할당됩니다. 노이즈 포인트는 제거되지만, 보더 포인트는 인접한 코어 포인트의 클러스터에 포함됩니다.

💡 근거

보더 포인트들은 그거하고 연관되어진, 연관되어진 코어 포인트들의 클러스터들 중에 하나로 어쌴을 시키게 되는 거죠. ---

Question 32

Euclidean distance를 사용하여 SSE(Sum of Squared Error)를 최소화하는 센트로이드(centroid)는 어떤 값으로 계산되는지 쓰시오.

Answer

✅ 정답

mean (또는 평균)

📖 해설

슬라이드 유도 과정과 강의 발췌 내용에 따르면, SSE를 최소화하는 센트로이드 $c_k$는 해당 클러스터에 속하는 원소들의 합을 원소의 개수 $m_k$로 나눈 값, 즉 평균(mean)으로 계산됩니다.

💡 근거

유클리디안 디스턴스일 때, 센트로이드는 mean으로 계산을 하면 된다는 것을 알 수가 있습니다. ---

Question 33

나이브 베이즈 분류기(Naïve Bayes Classifier)에서 특정 속성의 확률값이 0이 되어 전체 확률이 0이 됨으로써 클래스 간 비교가 불가능해지는 문제가 발생할 수 있습니다. 이러한 현상이 주로 발생하는 데이터의 특성을 서술하시오.

Answer

✅ 정답

데이터의 사이즈가 작고 속성(attribute)이 취할 수 있는 값의 가짓수가 많기 때문

📖 해설

강의 내용에 따르면 데이터 사이즈가 작은 반면 속성의 가짓수가 많아지면 특정 경우의 확률이 0이 될 수밖에 없으며, 이로 인해 전체 확률이 0이 되어 클래스 간 비교가 불가능해집니다.

💡 근거

이런 경우가 언제 발생하냐 데이터의 사이즈가 작을 때 데이터의 사이즈는 작은데 그 attribute가 취할 수 있는 값의 가짓수는 많아져요. 그런 경우에 어떤 한 경우에는 0이 되어버릴 수 밖에 없는 거죠 ---

Question 34

FP-growth 알고리즘에서 트랜잭션 데이터베이스를 압축하여 표현하기 위해 사용하는 자료 구조의 명칭을 쓰시오.

Answer

✅ 정답

FP-tree

📖 해설

FP-growth 알고리즘은 데이터베이스를 압축된 트리 구조로 표현하는 FP-tree를 사용하여 빈번 아이템셋을 추출합니다.

💡 근거

Use a compressed representation of the database using an FP-tree ---

Question 35

Anomaly Detection에서 'Considerably Different'하다는 것은 무엇을 의미하는가?

①

데이터의 평균과 표준 편차가 다름

②

데이터의 분포가 정규 분포를 따르지 않음

③

데이터 포인트가 정상 데이터와 많이 다름

④

데이터의 크기가 너무 작음

Answer

✅ 정답

데이터 포인트가 정상 데이터와 많이 다름

📖 해설

Anomaly Detection은 정상 데이터에서 많이 벗어난 데이터 포인트를 찾는 것을 목표로 함. 따라서 'Considerably Different'란 데이터 포인트가 정상 데이터와 많이 다르다는 것을 의미함.

💡 근거

Anomaly Detection은 대부분의 정상 데이터가 주어져 있을 텐데 이 정상 데이터에서 아주 많이 벗어나는 거 여기서는 Considerably Different 하다 라고 얘기하고 있어요 ---

Question 36

모델의 복잡도가 높아짐에 따라, 학습 알고리즘이 우연히 평가 지표를 극대화하는 파라미터들의 조합을 선택하여 트레이닝 데이터의 성능을 극대화시킬 가능성이 높아지는 현상을 무엇이라고 하는가?

Answer

✅ 정답

멀티플 컴퍼리즌 프로시저

📖 해설

모델이 너무 복잡해져 파라미터의 수가 많아지면, 우연히 트레이닝 데이터의 성능을 극대화시키는 파라미터 조합이 배워질 가능성이 높아지는데 이를 멀티플 컴퍼리즌 프로시저(Multiple Comparison Procedure)라고 합니다.

💡 근거

트레이닝 데이터의 성능을 극대화시키는 파라미터들의 조합이 우연히 배워질 가능성이 높아진다. 이거를 멀티풀 컴퓨러션 프로시저라고 부른다고 하네요. ---

Question 37

아이템셋 X가 closed(폐쇄적)이기 위한 조건은 무엇인지 서술하시오.

Answer

✅ 정답

X의 immediate supersets(직속 슈퍼셋) 중 어떤 것도 X와 같은 서포트(support)를 가지지 않아야 한다.

📖 해설

슬라이드 정의에 따르면, X의 직속 슈퍼셋 중 X와 동일한 서포트를 가진 것이 하나도 없을 때 X를 closed itemset이라고 합니다. 반대로 적어도 하나의 직속 슈퍼셋이 동일한 서포트를 가진다면 closed가 아닙니다.

💡 근거

An itemset X is closed if none of its immediate supersets has the same support as the itemset X. ---

Question 38

SVM에서 과적합(Overfitting)을 해결하기 위해 결정 경계(decision boundary)의 무엇을 최대화하는지 기술하시오.

Answer

✅ 정답

마진(margin)

📖 해설

슬라이드 120에 따르면 SVM은 결정 경계의 마진을 최대화함으로써 과적합 문제를 처리합니다.

💡 근거

Overfitting is handled by maximizing the margin of the decision boundary, ---

Question 39

Hunt's Algorithm을 이용하여 결정 트리(Decision Tree)를 생성할 때, 리프 노드(Leaf Node)로 선언하고 분기를 종료하는 조건으로 옳은 것은?

①

루트 노드에 도달한 모든 데이터 샘플이 서로 다른 클래스 레이블을 가질 때

②

노드에 도달한 모든 데이터 샘플이 동일한 클래스 레이블을 가질 때

③

수치형 어트리뷰트(Numerical Attribute)가 존재하여 디스크리타이저이션이 필요할 때

④

자식 노드의 개수가 유저가 설정한 기준보다 많을 때

Answer

✅ 정답

노드에 도달한 모든 데이터 샘플이 동일한 클래스 레이블을 가질 때

📖 해설

강의 내용에 따르면 노드에 도달한 모든 데이터 샘플들이 다 같은 클래스 레이블을 갖고 있게 되면 리프 노드로 선언하고 종료합니다. 서로 다른 레이블이 섞여 있는 경우에는 순수하지 않으므로 추가적인 분기가 필요합니다.

💡 근거

여기 노드에 도달한 모든 데이터 샘플들이 다 같은 클래스 레이블을 갖고 있게 되겠네요. 그러면 얘는 리프노드로 선언을 하고, 여기 이 노드의 레이블을 노다 이렇게 선언을 하면 되겠네요. ---

Question 40

다음 중 최소 지원도 = 3일 때, 후보 3‑아이템셋 중 실제로 빈도가 충분할(가능성 있는) 집합은 어느 것입니까?

①

{Beer, Diaper, Milk}

②

{Beer, Bread, Diaper}

③

{Bread, Diaper, Milk}

④

{Beer, Bread, Milk}

Answer

✅ 정답

{Bread, Diaper, Milk}

📖 해설

두 개의 2‑아이템셋 {Beer,Bread}와 {Beer,Milk}는 지원도가 3 미만이므로 그들을 포함하는 모든 3‑아이템셋은 비빈도이다. 네 개의 후보 중 {Bread, Diaper, Milk}만이 이러한 비빈도 2‑아이템셋을 포함하지 않으므로 남는 하나이다.

💡 근거

비어 브레드 라고 하는 이 세트는 임프리콘트 하게 되네요. 비어 밀크라고 하는 이 세트도 임프리콘트 하게 되네요... 남는 것은 하나예요. ---

Question 41

다음 중 'Categorical Attribute'에 대한 설명으로 가장 적절한 것은 무엇입니까?

①

실수(Real number)나 정수(Integer) 값으로 표현되는 속성이다.

②

미리 정의된 유한한 가능성의 집합(Finite set) 내에서 값을 가지는 속성이다.

③

시간의 흐름에 따라 값이 변하지 않는 고정된 속성만을 의미한다.

④

모든 오브젝트에 대해 항상 동일한 값을 가지는 속성이다.

Answer

✅ 정답

미리 정의된 유한한 가능성의 집합(Finite set) 내에서 값을 가지는 속성이다.

📖 해설

Categorical Attribute는 미리 정의된 유한 집합(Finite set) 중 하나의 값을 취하는 속성입니다. 실수나 정수로 표현되는 것은 Numeric Attribute에 해당하며, 속성 값은 오브젝트마다 다르거나 시간에 따라 변할 수 있습니다.

💡 근거

Categorical attributes - take on values in a prespecified, finite set of possibilities. ---

Question 42

Naïve Bayes 분류기에서 테스트 데이터 $X = (\text{Refund} = \text{No}, \text{Divorced}, \text{Income} = 120\text{K})$가 주어졌을 때, $P(\text{Divorced} \mid \text{Yes})$의 값을 계산하여라.

①

3/3

②

1/3

③

2/3

④

0

Answer

✅ 정답

1/3

📖 해설

Yes 클래스에서 Divorced인 경우는 1개, 총 Yes 클래스는 3개이므로 3분의 1의 확률 값을 가진다.

💡 근거

yes 클래스에서 메리털 스태터스에 대해서 yes 클래스가 yes일 때 메리털 스태터스는 취할 수 있는 값이 single 이거나 divorced 거나 married 거나 세 가지 중에 하나가 나와야겠네요 yes 클래스 이 3개에서 single인 경우 divorced single single 두 개네요 3분의 2 그리고 divorced가 하나 있었으니까 3분의 1 ---

Question 43

분류(Classification)의 정의와 구성 요소에 대한 설명으로 가장 적절한 것은?

①

클래스 레이블(y)을 입력으로 하여 아트리뷰트 셋(x)을 예측하는 모델을 배우는 것이다.

②

아트리뷰트 셋(x)은 종속 변수(dependent variable) 또는 출력(output)이라고도 불린다.

③

학습 데이터(training set)를 통해 아트리뷰트 셋(x)을 미리 정의된 클래스 레이블(y)로 매핑하는 모델을 배우는 것이다.

④

테스트 데이터(test set)는 레이블이 이미 주어져 있어 모델의 학습에 직접적으로 사용된다.

Answer

✅ 정답

학습 데이터(training set)를 통해 아트리뷰트 셋(x)을 미리 정의된 클래스 레이블(y)로 매핑하는 모델을 배우는 것이다.

📖 해설

분류는 주어진 트레이닝 셋을 통해 x(아트리뷰트 셋)를 y(클래스 레이블)로 매핑하는 모델을 배우는 작업입니다. x는 독립 변수(independent variable)이며, 테스트 셋은 y값이 주어지지 않은 상태에서 예측을 위해 사용됩니다.

💡 근거

Learn a model that maps each attribute set x into one of the predefined class labels y ---

Question 44

강의에서 언급된 대표적인 Clustering 방법의 이름을 적으시오.

Answer

✅ 정답

K-means Clustering

📖 해설

강의 발췌에 ‘Clustering에 속하는 대표적인 방법이 K-means Clustering이 되겠고’이라고 명시되어 있다. 따라서 정답은 K-means Clustering이다.

💡 근거

Clustering에 속하는 대표적인 방법이 K-means Clustering이 되겠고 ---

Question 45

백오브 월드(Bag of Words) 표현 방식이 가진 한계점으로 옳은 것은?

①

단어의 빈도수를 계산할 수 없다.

②

다큐먼트를 벡터로 표현하는 것이 불가능하다.

③

단어들이 나타나는 순서(sequence)라는 특성을 무시한다.

④

저차원 공간으로의 임베딩을 강제한다.

Answer

✅ 정답

단어들이 나타나는 순서(sequence)라는 특성을 무시한다.

📖 해설

강의 내용에 따르면 백오브 월드는 어떤 단어가 어떤 단어 앞에 나타났는지와 같은 순서(sequence) 특성을 무시하는 방식입니다. 빈도수 계산은 가능하며, 벡터 표현 방식의 일종입니다.

💡 근거

백오브 월드 라는 이런 표현 방식은 어떤 단어가 어떤 단어 앞에 나타났는지 그거는 무시해 보이는 거죠. 나타나는 순서, 시콘서라는 특성은 무시해 버려서 ---

Question 46

베이지안 분류기를 사용하여 분류할 때, 테스트 데이터에 missing value가 있으면 어떻게 해야 하나?

①

그 부분을 0으로 가정한다

②

그 부분을 평균값으로 대체한다

③

그 부분은 빼고 계산한다

④

그 부분을 무시하고 다른 속성만 사용한다

Answer

✅ 정답

그 부분은 빼고 계산한다

📖 해설

베이지안 분류기에서는 테스트 데이터에 missing value가 있으면 그 부분은 빼고 계산을 해줘야 한다. 이는 attribut에 대해서 information이 어떤 부분에 대해서 부족하더라도 여전히 prior probability를 계산을 할 수가 있다는 뜻이다.

💡 근거

테스트 데이터에 대해서 missing value가 있으면 그 부분은 빼고 계산을 해줘라 ---

Question 47

공분산(Covariance)을 표준편차(Standard Deviation)로 나누어 상관계수를 계산하는 주된 이유는 무엇입니까?

①

계산 속도를 빠르게 하기 위해서

②

데이터의 비선형성을 제거하기 위해서

③

값의 범위를 -1과 1 사이로 제한하여 노멀라이제이션 효과를 주기 위해서

④

상관관계의 부호를 양수로 바꾸기 위해서

Answer

✅ 정답

값의 범위를 -1과 1 사이로 제한하여 노멀라이제이션 효과를 주기 위해서

📖 해설

공분산은 데이터에 따라 크기를 가늠하기 힘들기 때문에, 표준편차로 나누어 값의 범위를 -1에서 1로 제한함으로써 노멀라이제이션 효과를 줄 수 있습니다.

💡 근거

코베리언스는 크기가 가늠하기가 힘들어요. 데이터에 따라서. 그래서 이 크기를 스탠더드 디비에이션으로 나눠줌으로써, 코릴레이션의 값의 범위는 마이너스 1과 1로 제한이 되게 되죠. ... 이렇게 크기가 마이너스 1로 제한되므로써, 노멀라이제이션 효과를 줄 수가 있는 거죠. ---

Question 48

Confusion Matrix에서 실제 Positive(Yes) 클래스를 Positive(Yes)로 올바르게 예측한 경우를 무엇이라고 하는가?

Answer

✅ 정답

True Positive

📖 해설

실제 Positive(Yes)인 샘플을 Positive(Yes)로 예측한 경우를 True Positive(TP)라고 한다. False Positive는 실제 Negative를 Positive로 예측한 경우이며, False Negative와 True Negative는 각각 다른 경우에 해당한다.

💡 근거

a: TP (true positive) ---

Question 49

데이터 행렬(Data Matrix)에 대한 설명으로 가장 적절한 것은 무엇입니까?

①

데이터 오브젝트의 모든 어트리뷰트가 범주형 값으로 표현되어야 한다.

②

데이터 오브젝트의 모든 어트리뷰트가 숫자(numeric attribute)로 표현된 행렬이다.

③

데이터 행렬에서는 반드시 행(row)을 어트리뷰트로, 열(column)을 데이터 오브젝트로 설정해야 한다.

④

데이터 행렬로 표현된 데이터는 시각화가 가능하므로 항상 5차원 공간에 나타낼 수 있다.

Answer

✅ 정답

데이터 오브젝트의 모든 어트리뷰트가 숫자(numeric attribute)로 표현된 행렬이다.

📖 해설

강의 발췌 내용에 따르면 데이터 행렬은 모든 어트리뷰트가 뉴메릭 어트리뷰트(숫자)인 경우를 말합니다. 행과 열의 설정은 일반적인 방식이 있을 뿐 반대로 표시하는 경우도 있으며, 5차원 공간은 시각화가 불가능하다고 명시되어 있습니다.

💡 근거

어트리뷰트가 다 숫자가, 모든 아트리뷰트가 다 뉴메릭 아트리뷰트인 데이터 행렬입니다. ---

Question 50

결정 트리에서 최적의 분기(Best Split)를 결정하기 위해 사용하는 탐욕적 접근법(Greedy approach)에서는, 클래스 분포가 어떠한 노드를 더 선호하는지 쓰시오.

Answer

✅ 정답

더 순수한(purer)

📖 해설

슬라이드에 따르면 탐욕적 접근법에서는 클래스 분포가 더 순수한(purer) 노드를 선호합니다. 불순도가 낮을수록 더 순수한 상태를 의미합니다.

💡 근거

Greedy approach: Nodes with purer class distribution are preferred ---

Question 51

최적의 분할(Best Split)을 찾기 위해, 분할 전의 불순도 측정값(P)에서 분할 후 자식 노드들의 가중 불순도 측정값(M)을 뺀 값을 무엇이라고 하는가?

Answer

✅ 정답

Gain

📖 해설

슬라이드와 강의 내용에 따르면, 분할 전 불순도(P)와 분할 후 가중 불순도(M)의 차이(P - M)를 Gain이라고 정의하며, 이 Gain을 최대화하는 속성 테스트 조건을 선택합니다.

💡 근거

Gain = P - M ---

Question 52

FP-Growth 알고리즘에서 빈번 아이템셋(Frequent itemset)을 생성하기 위해 사용하는 재귀적인 문제 해결 방식으로, 찾고자 하는 아이템셋이 어떤 아이템으로 끝나는지에 따라 문제를 나누어 처리하는 이 기법의 명칭은 무엇입니까?

Answer

✅ 정답

디바이드 앤 컨커 (divide-and-conquer)

📖 해설

FP-Growth 알고리즘은 재귀적인 디바이드 앤 컨커(divide-and-conquer) 접근 방식을 사용하여, 특정 아이템으로 끝나는 빈번 아이템셋을 찾는 하위 문제로 나누어 해결합니다.

💡 근거

use a recursive divide-and-conquer approach - Find the frequent itemsets ending in e ---

Question 53

K-means 알고리즘에서 모든 포인트가 할당된 후 센트로이드를 업데이트하는 기본 방식과 달리, 각 데이터 샘플의 할당 직후 센트로이드를 업데이트하여 빈 클러스터(empty cluster)가 생성되는 것을 방지하는 접근 방식을 무엇이라고 하는가?

Answer

✅ 정답

Incremental Approach (또는 Incremental Updating)

📖 해설

데이터 샘플마다 하나씩 센트로이드를 업데이트하는 방식을 Incremental Approach라고 하며, 이 방식은 데이터 샘플이 자신의 센트로이드가 되는 특성 때문에 빈 클러스터가 생성되는 기회를 원천 차단합니다.

💡 근거

클러스터 센트로이드 업데이트를 데이터 샘플마다 하나씩 하나씩 처리를 하는 이런 경우를 Incremental Approach라고 얘기를 합니다. ... 그렇지만 이렇게 Incremental Updating을 하는 것은 empty 클러스터를 만들지 않는다도 다른 어프로치가 되겠어요. ---

Question 54

슬라이드 13에서 ‘Class = No’일 때, 소득이 120K인 경우의 조건부 확률 P(Income = 120 | No)는 얼마인가?

Answer

✅ 정답

0.0072

📖 해설

슬라이드 13에 제시된 식에 따라 평균 110, 분산 2975(표준편차 ≈ 54.54)를 사용해 계산하면 P(Income = 120 | No) = 0.0072가 된다. 다른 값들은 평균·분산을 잘못 대입하거나 정규분포 식을 틀리게 적용했을 때 나온다.

💡 근거

P(Income = 120 | No) = \frac{1}{\sqrt{2\pi(54.54)}} e^{-\frac{(120-110)^2}{2(2975)}} = 0.0072 ---

Question 55

통계학에서 Standardization(표준화)이란 평균을 빼고 무엇으로 나누는 것을 의미하는지 쓰시오.

Answer

✅ 정답

표준편차 (standard deviation)

📖 해설

슬라이드 21의 통계학적 표준화 정의에 따르면, 평균을 빼고 표준편차(standard deviation)로 나누는 과정을 의미합니다.

💡 근거

In statistics, standardization refers to subtracting off the means and dividing by the standard deviation ---

Question 56

고유 아이템의 수(d)가 6개일 때, 생성 가능한 총 연관 규칙(Association Rules)의 수 R은 얼마인지 쓰시오.

Answer

✅ 정답

602

📖 해설

슬라이드 6의 내용과 강의 발췌문에 따르면, d=6일 때 가능한 연관 규칙의 수 R은 602개로 명시되어 있습니다.

💡 근거

If d=6, R = 602 rules ---

Question 57

의사결정 나무(Decision Tree)에서 부모 노드에서 자식 노드로 분기하는 기준이 되는 속성을 무엇이라고 하는지 쓰시오.

Answer

✅ 정답

Splitting Attribute

📖 해설

의사결정 나무의 넌 리프노드(non-leaf node)에 위치하여 데이터를 분기시키는 기준 속성을 Splitting Attribute라고 합니다.

💡 근거

이 아트리뷰트를 특별히 Splitting Attribute라고 얘기를 하죠. 부모 노드에서 자식 노드로 Splitting Attribute로 이것을 쓰겠다고 하는 게 되겠네요. ---

Question 58

의사결정나무(Decision Tree)에서 오버피팅을 방지하기 위해 트리가 완전히 성장하기 전에 미리 성장을 멈추는 기법을 무엇이라고 하는지 쓰시오.

Answer

✅ 정답

프리 프루닝 (Pre-Pruning)

📖 해설

프리 프루닝(Pre-Pruning)은 트리가 완전히 성장하기 전에 미리 잘라버리는 기법으로, 'early stopping rule'이라고도 합니다. 반면 포스트 프루닝은 트리를 완전히 성장시킨 후에 가지치기를 하는 방식입니다.

💡 근거

프리 프루닝은 트리가 완전하게 성장하기 전에 미리 잘라버린다는 얘기가 되겠고요. ---

Question 59

아이템 e를 위한 조건부 FP-트리(Conditional FP-tree)를 구성하는 단계 중, 프리픽스 패스(prefix path)를 따라 빈도수(frequency counts)를 업데이트할 때 제거해야 하는 카운트는 어떤 트랜잭션들로 인해 발생한 것인지 쓰시오.

Answer

✅ 정답

e를 포함하지 않는 트랜잭션

📖 해설

조건부 FP-트리는 특정 아이템(e)을 포함하는 빈번 아이템셋을 찾기 위한 것이므로, e를 포함하지 않는 트랜잭션들로 인해 발생한 카운트는 업데이트를 통해 제거하고 e를 포함하는 트랜잭션의 기여분만 남겨야 합니다.

💡 근거

update the frequency counts along the prefix path due to transactions that do not contain e ---

Question 60

연관 분석에서 Rule을 평가하는 두 가지 주요 Metric으로, 전체 트랜잭션 중 X와 Y를 모두 포함하는 비율을 나타내는 지표와 X를 포함하는 트랜잭션 중 Y도 포함하는 비율을 나타내는 지표를 각각 쓰시오.

Answer

✅ 정답

Support, Confidence

📖 해설

슬라이드와 강의 내용에 따르면 Rule 평가 Metric으로 Support(S)와 Confidence(C)가 사용됩니다. Support는 X와 Y를 모두 포함하는 트랜잭션의 비율이며, Confidence는 X를 포함하는 트랜잭션 중 Y도 포함하는 비율을 의미합니다.

💡 근거

Rule을 평가하는 Metric으로 쓰는 게 두 가지가 있습니다. Support와 Confidence가 있습니다. ... Rule에 대한 Support는, 앞에 있는 X와 Y를, X이면 Y다. X하고 Y를 둘 다 포함하는 Transaction의 비율이 Rule에 대한 Support가 되겠습니다. ... Confidence는 X를 포함하는 Transactions 중에서 Y도 포함하는 Transaction의 비율이 되겠습니다. ---

Question 61

슬라이드 25의 예시에서 Candidate 4-itemset인 L4 = {ABCD, ABCE, ABDE} 중, Candidate pruning 과정을 거쳐 최종적으로 남게 되는 아이템셋은 무엇인지 쓰시오.

Answer

✅ 정답

ABCD

📖 해설

ABCE는 ACE와 BCE가 infrequent하여 제거되고, ABDE는 ADE가 infrequent하여 제거됩니다. 따라서 Candidate pruning 후 최종적으로 ABCD만 남게 됩니다.

💡 근거

After candidate pruning: L4 = {ABCD} ---

Question 62

Apriori 알고리즘에서 최소 서포트 임계값(minimum support threshold)을 낮게 설정했을 때, 후보 아이템셋(candidates)의 수와 빈번 아이템셋(frequent itemsets)의 최대 길이에 미치는 영향은 무엇입니까?

Answer

✅ 정답

증가

📖 해설

최소 서포트 임계값을 낮추면 더 많은 아이템셋이 빈번 아이템셋으로 판명되어, 결과적으로 후보 아이템셋의 수와 빈번 아이템셋의 최대 길이가 증가하게 됩니다.

💡 근거

lowering support threshold results in more frequent itemsets - this may increase number of candidates and max length of frequent itemsets ---

Question 63

규모가 작은 데이터에 대해 잘 작동하는 기법이 규모가 큰 데이터에 대해서도 잘 작동하는지를 의미하는 용어를 쓰시오.

Answer

✅ 정답

스케일러빌리티

📖 해설

강의 발췌 내용에 따르면, 사이즈가 큰 데이터에 대해 전통적인 기법들이 처리하기 적당하지 않은 문제를 언급하며 이를 '스케일러빌리티'라고 정의하고 있습니다.

💡 근거

규모가 작은 데이터에 대해서 잘 작동하는 기법이 규모가 큰 데이터에 대해서도 잘 작동하느냐? 이게 스케일러빌리티에 해당되는 내용이 되겠고요 ---

Question 64

크기 k인 Frequent Itemset L 로부터 만들 수 있는 후보 연관 규칙의 총 개수는 (공집합 → L 및 L → 공집합을 제외하고) 얼마인가?

Answer

✅ 정답

2^k - 2

📖 해설

L의 모든 비공집합 부분집합을 왼쪽에 둘 수 있다. 전체 부분집합 수는 2^k이며, 공집합과 전체집합을 제외하면 2^k‑2가 된다. 이는 슬라이드와 강의 발췌에서 직접 제시된 식이다.

💡 근거

If $|L| = k$, then there are $2^k - 2$ candidate association rules (ignoring $L \to \emptyset$ and $\emptyset \to L$) ... "E의 K승-2개의 캔더데이트 아소시아션 룰" ---

Answer 65

✅ 정답

Gain Ratio

📖 해설

Gain Ratio는 Information Gain을 Split Info로 나누어, 너무 잘게 쪼개지는(엔트로피가 높은) 분할에 대해 패널티를 줌으로써 Information Gain의 단점을 극복하도록 설계된 지표입니다.

💡 근거

Gain Ratio... Used in C4.5 algorithm... Designed to overcome the disadvantage of Information Gain ---

Answer 66

✅ 정답

노드와 엣지

📖 해설

웹페이지들은 노드가 되고, 하이퍼링크는 엣지가 됩니다. 따라서 웹페이지의 구조는 노드와 엣지로 구성될 수 있습니다.

💡 근거

하이퍼링크를 가지고 있는 웹페이지들, 하나의 웹페이지들이 노드가 되는 거고, 하나의 웹페이지가 다른 웹페이지의 링크를 가지고 있을 때 이게 엣지가 되겠죠. ---

Answer 67

✅ 정답

Causality (또는 인과관계)

📖 해설

연관 분석의 규칙은 아이템 간의 동시 발생(Co-occurrence)을 의미하는 것이지, 한 아이템이 다른 아이템의 원인이 되는 인과관계(Causality)를 나타내는 것이 아닙니다.

💡 근거

Implication means co-occurrence, not causality! / Association Rule에서 헷갈리면 안 되는 것이 장바구니에 이 아이템과 이 아이템이 같이 존재할 수 있다는 것을 의미하는 것이 원인 결과를 나타내는 Causality Relation은 아니라는 것입니다. ---

Answer 68

✅ 정답

(n_c + 1) / (n + v)

📖 해설

Laplace Estimate는 0인 빈도수를 방지하기 위해 분자에 1을, 분모에 속성 X_i가 가질 수 있는 전체 값의 개수 v를 각각 더한다. 따라서 식은 (n_c+1)/(n+v)이다. m‑estimate와는 다르게 p와 m을 사용하지 않는다.

💡 근거

Laplace Estimate: $P(X_i = c|y) = \frac{n_c+1}{n+v}$ ---

Answer 69

✅ 정답

variance of the generalization error

📖 해설

Repeated cross-validation is performed multiple times, and the variation among the resulting error estimates reflects the variance of the generalization error. It does not directly estimate the mean error or bias, which are obtained from a single cross‑validation run.

💡 근거

Repeated cross-validation ... Gives an estimate of the variance of the generalization error ---

Answer 70

✅ 정답

K가 클수록 실제 클러스터마다 하나의 중심점을 선택할 확률이 작아지기 때문이다.

📖 해설

슬라이드 18은 ‘If there are K ‘real’ clusters then the chance of selecting one centroid from each cluster is small.’ 라고 명시한다. K가 커지면 모든 실제 클러스터에 대해 적절한 초기 중심점을 잡을 확률이 낮아져 알고리즘 수렴에 영향을 미친다. 다른 선택지는 K와 무관하거나 확률이 높아진다고 잘못 해석한 것이다.

💡 근거

If there are K ‘real’ clusters then the chance of selecting one centroid from each cluster is small. - Chance is relatively small when K is large ---

Answer 71

✅ 정답

현재까지 선택된 센트로이드들 중 가장 가까운 센트로이드까지의 거리의 제곱(minimum squared distance)

📖 해설

K-means++는 이미 선택된 센트로이드들과의 최소 제곱 거리(min d^2)가 클수록 해당 포인트가 새로운 센트로이드로 선택될 확률이 높아지도록 설계되었습니다. 이는 센트로이드들을 서로 멀리 떨어뜨려 배치함으로써 SSE 관점에서 더 나은 결과를 얻기 위함입니다.

💡 근거

Randomly select a new centroid by choosing a point with probability proportional to $\frac{\min_j \text{d}^2(C_j, x_i)}{\sum_i \min_j \text{d}^2(C_j, x_i)}$ ---

Answer 72

✅ 정답

Home Owner

📖 해설

슬라이드 (b)와 강의 발췌에서 첫 번째 분할이 Home Owner 속성을 기준으로 이루어진다고 명시되어 있다. 다른 속성들은 두 번째·세 번째 분할에 사용된다.

💡 근거

첫 번째 분할 (Home Owner 기준) ... 홈 오노를 제일 좋은 어트리뷰트라고 선택이 됐으면 ---

Answer 73

✅ 정답

동일한 아이템셋으로부터 생성된 규칙들의 신뢰도는 규칙의 우측(RHS) 아이템 수에 대해 안티-모노톤 성질을 가진다.

📖 해설

일반적인 신뢰도는 안티-모노톤 성질이 없으나, 동일한 아이템셋에서 생성된 규칙들은 우측(RHS) 아이템 수가 증가할수록(즉, 좌측 LHS 아이템 수가 감소할수록) 분모인 LHS의 서포트 카운트가 커지므로 신뢰도는 작아지는 안티-모노톤 성질을 보입니다.

💡 근거

Confidence is anti-monotone w.r.t. number of items on the RHS of the rule ---

Answer 74

✅ 정답

c(ABC → D) ≥ c(AB → CD) ≥ c(A → BCD)

📖 해설

슬라이드 29에 제시된 식에 따라, 같은 아이템셋에서 왼쪽(전건) 아이템 수가 많을수록 신뢰도는 크거나 같으며, 오른쪽(후건) 아이템 수가 많을수록 신뢰도는 작아진다. 따라서 옵션 1이 올바른 관계이다. 옵션 2·3·4는 반대이거나 동일하다고 가정해 틀렸다.

💡 근거

c(ABC → D) ≥ c(AB → CD) ≥ c(A → BCD) ---

Answer 75

✅ 정답

Jaccard Coefficient

📖 해설

자카드 계수는 분자와 분모에서 f00(둘 다 0인 경우)을 제외하고 계산하므로, 둘 다 없는 경우가 의미가 없다고 판단할 때 사용합니다. 반면 SMC는 둘 다 없는 경우도 유사도에 포함합니다.

💡 근거

둘 다 0을 가지는 경우, 즉 그 텀이 양쪽 다큐먼트에 다 나타나지 않았다, 그 텀이 시밀러리티에 기여하는 바가 별로 없다고 내가 생각을 한다면 자카드 코어 에피션트를 사용해야 되겠고요. ---

Answer 76

✅ 정답

연속형 변수도 이산형 변수와 동일하게 모든 가능한 값에 대해 표를 만들어 확률을 구한다.

📖 해설

연속형 변수는 카운터블한 갯수의 값을 가지지 않으므로 이산형 변수처럼 표를 만들어 쓸 수 없다고 명시되어 있습니다. 따라서 분포를 가정하거나 디스크리타이저를 통해 이산형으로 변환하는 방법을 사용해야 합니다.

💡 근거

컨티뉴스 배리어블에 대해서는 이렇게 표를 만들 수가 없죠 왜냐하면 인컴에 대해서 인컴이 얼마 얼마 얼마 얼마 딱 이렇게 몇 가지의 가능한 값만 가지는 게 아니잖아요 카운터블한 갯수의 값을 가지지가 않죠 그러면 이렇게 표를 만들어서 쓸 수가 없어요 ---

Answer 77

✅ 정답

Similarity: [0,1]; Dissimilarity: [0,∞)

📖 해설

슬라이드에서는 Similarity가 보통 [0,1] 범위에 속하고, Dissimilarity는 최소 0이며 상한은 상황에 따라 달라져 흔히 무한대로 표현된다고 설명한다. 따라서 1번이 올바른 서술이다. 다른 선택지는 범위가 잘못 제시되었거나 둘 다 같은 범위라고 잘못 주장한다.

💡 근거

Similarity ... Often falls in the range [0,1]. Dissimilarity ... Minimum dissimilarity is often 0; Upper limit varies. ---

Answer 78

✅ 정답

아트리뷰트 셋을 클래스 레이블로 맵핑하는 모델을 학습하는 것

📖 해설

클래시피케이션은 아트리뷰트 셋을 클래스 레이블로 맵핑하는 모델을 학습하는 것을 목적으로 한다. 이는 슬라이드 2의 'Task' 부분에서 'Learn a model that maps each attribute set x into one of the predefined class labels y'라고 설명되어 있다.

💡 근거

Task: Learn a model that maps each attribute set x into one of the predefined class labels y ---

Answer 79

✅ 정답

데이터 샘플의 클래스 레이블을 고려하지 않고 수행하는 unsupervised 방법만 존재한다.

📖 해설

Discretization은 unsupervised 방법뿐만 아니라, 클래스 레이블을 고려하여 나중에 분류 성능을 높일 수 있는 supervised 방법으로도 수행될 수 있습니다.

💡 근거

Discretization은 supervised 한 방법으로도 수행이 될 수가 있고, unsupervised 한 방법으로도 수행이 될 수가 있다. ---

Answer 80

✅ 정답

양의 상관관계

📖 해설

코릴레이션의 값이 양수인 경우, 두 변수 사이에 양의 상관관계가 존재한다는 것을 의미한다. 즉, 한 변수가 증가할 때 다른 변수도 증가하는 경향이 있다.

💡 근거

그래서 코릴레이션의 값이 양수가 나와요. ---

Answer 81

✅ 정답

m by n 행렬

📖 해설

데이터 메이트릭스는 m by n 행렬로 표현할 수 있습니다. 여기서 m은 데이터 오브젝트의 개수, n은 아트리뷰트의 개수를 나타냅니다.

💡 근거

Such data set can be represented by an m by n matrix, where there are m rows, one for each object, and n columns, one for each attribute ---

Answer 82

✅ 정답

Pattern Interpretation

📖 해설

슬라이드에 따르면 전처리 단계는 차원 감소, 정규화, 데이터 서브셋 추출을 포함하고, 패턴 해석은 후처리 단계에 속합니다. 따라서 ‘Pattern Interpretation’은 전처리 항목이 아닙니다.

💡 근거

Data preprocessing 단계의 세부 항목: Dimensionality reduction (Feature selection/extraction), Normalization, Data subsetting ---

Answer 83

✅ 정답

테이블

📖 해설

데이터의 전형적인 형태는 테이블로 주어져 있는 모습입니다. 각각의 행은 하나의 데이터 샘플을 나타내고, 각 데이터 샘플은 여러 개의 속성으로 묘사가 됩니다.

💡 근거

우리가 사용하는 데이터의 가장 전형적인 형태는 테이블로 주어져 있는 모습입니다. ---

Answer 84

✅ 정답

순서가 없고, 랭크를 매길 수 없다

📖 해설

노미널 아트리뷰트는 순서가 없고, 랭크를 매길 수 없는 속성이다. 예를 들어, 남녀나 집코드는 순서가 없기 때문에 노미널 아트리뷰트이다.

💡 근거

이것도 순서대로 이렇게, 물론 인접한 지역으로 우리가 1년에 순서를 가지게 매기지만, 이것들이 안에 잠재적으로 뭐가 뭐보다 크다. 집코드 51312가 다른 집코드 50001보다 크다. 이 크다가 그닥 의미를 가지고 있지 않죠. 이럴 때, 우리 이제 노미널 아트리뷰트다. ---

Answer 85

✅ 정답

max(|xk - yk|)

📖 해설

r이 infinity일 때, Minkowski Distance의 수식은 max(|xk - yk|)입니다. 이는 r이 무한대이므로, 절대값의 최대값을 취하는 것입니다.

💡 근거

r이 인피니트일 때, 이렇게 정의를 하죠. xk와 yk의 절대값에, 각각의 k가 1부터 n까지, 슈프리멈놈 ---

Answer 86

✅ 정답

Mahal(A, B) = 5, Mahal(A, C) = 4

📖 해설

슬라이드 33의 'Mahalanobis Distances' 항목에 명시된 계산 결과값에 근거합니다.

💡 근거

Mahalanobis Distances: Mahal(A, B) = 5, Mahal(A, C) = 4 ---

Answer 87

✅ 정답

$\sqrt{(1-4)^2 + (2-6)^2} = \sqrt{9 + 16} = \sqrt{25} = 5$

📖 해설

P와 Q 사이의 유클리디언 디스턴스는 $\sqrt{(p_1-q_1)^2 + (p_2-q_2)^2}$로 계산된다. 따라서 P(1, 2)와 Q(4, 6) 사이의 유클리디언 디스턴스는 $\sqrt{(1-4)^2 + (2-6)^2} = \sqrt{9 + 16} = \sqrt{25} = 5$이다.

💡 근거

유클리디언 디스턴스는 $\sqrt{\sum_{k=1}^{n} (p_k - q_k)^2}$로 계산된다. ---

Answer 88

✅ 정답

0.125

📖 해설

Gain은 부모 노드의 Gini Index에서 자식 노드들의 가중 평균 Gini Index를 뺀 값으로 계산됩니다. 슬라이드 예제에서 0.486 - 0.361 = 0.125로 명시되어 있습니다.

💡 근거

Gain = 0.486 - 0.361 = 0.125 ---

Answer 89

✅ 정답

썸 오브 스퀘어드 에러 (Sum of Squared Error)

📖 해설

워드 메서드는 모든 두 쌍의 클러스터를 병합했을 때, 썸 오브 스퀘어드 에러(Sum of Squared Error)의 증가값이 가장 작은 것을 찾아 병합하는 방식입니다.

💡 근거

모든 두 쌍의 클러스터를 다 머지했을 때를 생각을 해보고 그 중에 썸 오브 스퀘어드 에러에서의 증가값이 제일 작은 것을 찾아서 그거를 머지를 하게 되는 게 워드 메서드가 되겠습니다. ---

Answer 90

✅ 정답

1

📖 해설

엔트로피는 최대값이 log₂c이며, c=2이면 log₂2=1이 된다. 슬라이드와 강의 발췌에서 ‘특히 클래스가 2개다, 그러면 c가 2일 때 … 최대 값이 1값이 되겠어요’라고 명시되어 있다. 다른 값들은 균등 분포가 아닐 때의 엔트로피이므로 정답이 아니다.

💡 근거

Maximum of \log_2 c ...; 특히 클래스가 2개다, 그러면 c가 2일 때 … 최대 값이 1값이 되겠어요. ---

Answer 91

✅ 정답

sum of squared error

📖 해설

강의 발췌에서 ‘이 값을 쓰기를 sum of squared error라 하고, K-Mins 알고리즘은 이 sum of squared error를 최소화시키는 …’ 라고 명시되어 있다. 따라서 정답은 sum of squared error이다.

💡 근거

이 값을 쓰기를 sum of squared error다, 이 값을 쓰기를 sum of squared error다, 이 값을 쓰기를 sum of squared error라고 하고, K-Mins 알고리즘은 이 sum of squared error를 최소화시키는 그런 클러스터링을 하고자 하는 거죠. ---

Answer 92

✅ 정답

센트로이드가 더 이상 변하지 않을 때

📖 해설

슬라이드 10의 알고리즘 단계와 강의 내용 모두 ‘센트로이드가 바뀌지 않을 때까지’ 반복한다고 설명한다. 따라서 센트로이드가 고정되면 알고리즘이 종료한다.

💡 근거

until The centroids don't change ---

Answer 93

✅ 정답

인포메이션 게인 (Information Gain)

📖 해설

강의 발췌 내용에 따르면 엔트로피를 불순도 측정치로 사용할 때 얻게 되는 이득을 특별히 '인포메이션 게인'이라고 부르며, 이를 통해 가장 많은 이득을 주는 속성을 스플리팅 속성으로 선택합니다.

💡 근거

특별히 엔트로피를 인플루티 매저로 사용할 때의 게인을 인포메이션 게인이다 이렇게 부릅니다. ---

Answer 94

✅ 정답

All the records belong to the same class

📖 해설

스플리팅을 멈추는 조건으로, 현재 노드에 있는 모든 학습 레코드가 동일한 클래스를 가질 때 더 이상 분할할 필요가 없으므로 절차를 종료한다. 이는 슬라이드 12에 명시된 ‘Stop splitting if all the records belong to the same class’와 일치한다. 다른 멈춤 기준(예: 조기 종료)은 여기서 언급되지 않았다.

💡 근거

Stop splitting if all the records belong to the same class ---

Answer 95

✅ 정답

FP

📖 해설

실제는 Negative(No)인데 Positive(Yes)라고 예측하여 예측이 틀린 경우이므로 False Positive(FP)라고 합니다.

💡 근거

실제는 No인데 Yes라고 예측하는 거, 실제는 Negative인데 Positive라고 예측한 거잖아요. 예측은 Positive라고 했어요. 그런데 이 예측이 틀린 거죠. No를 Yes라고 예측했으니까. False Positive다. 그래서 FP로 나타내죠. ---

Answer 96

✅ 정답

0

📖 해설

오른쪽 노드에는 하나의 클래스(야구)만 존재하므로 확률이 1이고, 엔트로피는 -1·log₂(1)=0이 된다. 따라서 불순도는 0이다. 다른 값은 클래스가 섞여 있을 때만 나타난다.

💡 근거

오른쪽 노드에서의 엔트로피는 야구 하나밖에 없어요. 클래스 비율이 1이네요. 그러니까 마이너스 1 로그 1이 되겠네요. 로그 1은 0이니까 0 값을 가지게 되겠죠. ---

Answer 97

✅ 정답

제너럴라이제이션 에러

📖 해설

강의 내용에 따르면 트레이닝 데이터와 같은 분포에서 나오는 데이터를 랜덤하게 선택했을 때 모델이 보일 성능의 기대치를 제너럴라이제이션 에러라고 하며, 이를 최소화하는 것이 궁극적인 목적입니다. 트레이닝 에러나 테스트 에러와는 구분되는 개념입니다.

💡 근거

궁극적인 목적은 트레이닝 에러를 최소화시키는 게 아니라 제너럴라이제이션 에러를 최소화시키는 게 목적이기 때문에 ---

Answer 98

✅ 정답

Gain = P - M (예: 기준 A에 대해 Gain = P - M1, 기준 B에 대해 Gain = P - M2)

📖 해설

정보 이득은 부모 노드의 불순도 P에서 해당 분할에 대한 자식 노드들의 가중 평균 불순도 M을 뺀 값이다. 슬라이드에서는 A 기준에 대한 M을 M1, B 기준에 대한 M을 M2로 표기하여 각각 ‘Gain = P - M1’, ‘Gain = P - M2’라고 제시한다.

💡 근거

Gain = P - M1 \quad \text{vs} \quad P - M2 ---

Answer 99

✅ 정답

1) 부모 노드의 인퓨리어티 메저 계산, 2) 자식 노드의 인퓨리어티 메저 계산, 3) 가장 높은 게인을 생산하는 어트리뷰트 테스트 선택

📖 해설

베스트 스플릿을 찾는 과정은 부모 노드의 인퓨리어티를 계산하고, 자식 노드의 인퓨리어티를 계산한 뒤, 가장 높은 게인을 생산하는 어트리뷰트를 선택하는 것입니다. 이는 슬라이드 16과 강의 발췌에서 설명된 내용입니다.

💡 근거

어떤 인퓨리어티 메저를 사용하든지 베스트 스플릿을 찾기 위한 절차가 1번, 2번, 3번, 3개의 스텝으로 설명이 되고 있네요. ---

Answer 100

✅ 정답

서포트는 동일하지만 신뢰도는 다를 수 있으며, 이를 위해 서포트와 신뢰도 요구사항을 분리(decouple)하여 생각할 수 있다.

📖 해설

동일한 아이템셋에서 파생된 룰들은 포함하는 전체 아이템의 구성이 같으므로 서포트 값은 모두 동일하지만, 조건부 확률인 신뢰도는 룰의 구성에 따라 달라집니다. 따라서 두 지표를 동시에 고려하기보다 따로 생각하는 '데커플링(decouple)'이 가능합니다.

💡 근거

Rules originating from the same itemset have identical support but can have different confidence. Thus, we may decouple the support and confidence requirements ---

기출 가능성 TOP 100 문제

📑 목차