Notice
Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Archives
Today
Total
관리 메뉴

단죤 의 블로그

[ADSP] 오답정리 본문

시험준비 🧪

[ADSP] 오답정리

단죤 2025. 2. 10. 14:39

문제 정리 

  1. 서로 다른 타입의 데이터 저장 가능 여부
    • 벡터 ❌
    • 행렬 ❌
    • 스칼라 ❌
  2. 비모수 검정 특징
    • 모집단의 분포를 가정하지 않음
    • 데이터의 순서, 부호 등을 활용
    • 모수를 정하기 어렵거나 많을 때 사용
  3. SOM (자기조직화 지도) 특징
    • 차원 축소 + 군집화 동시에 수행
    • 데이터의 특징을 분석하여 비슷한 데이터끼리 묶음
    • 비지도 학습 기법
  4. 다중회귀분석 결과의 데이터 개수
    • (정확한 조건 필요)
  5. 보험사에서 해지 예상 고객 예측에 적절한 기법
    • 군집 분석: 비슷한 고객 그룹 찾기
    • 연관 분석: 특정 행동 패턴 찾기
    • 주성분 분석: 변수 수 줄이기
  6. 회귀분석과 결정계수
    • 결정계수가 클수록 설명력이 높음
    • 결정계수는 0~1 사이 값
    • 회귀계수의 유의성 검증: T값과 P값 확인
  7. 회귀분석 개념
    • 선형 회귀는 종속변수가 연속형일 때 사용
    • 검정 방법: F-TEST, T-TEST
    • 로지스틱 회귀 분석의 탐색 방법: 최대우도법
    • 회귀식 기울기 검정:
      • 귀무가설: 기울기 = 0
      • 대립가설: 기울기 ≠ 0
  8. 잘못 분류된 데이터에 가중치를 주어 학습하는 기법
    • 부스팅(Boosting)
  9. 현재 값에서 이전 값을 빼는 것
    • 차분(Differencing)
  10. 잔차(오차)의 제곱합을 최소화하는 방법
  • 최소제곱법(Least Squares Method)

 

11. 문제 탐색 도구

- 비즈니스 모델 기반 문제 탐색 

- 외부 참조 모델 기반 문제 탐색

- 분석 유즈케이스

 

12. 분석 조직 구조

(협업 업무 부서의 분석 업무와 이중화 / 이원화 가능성이 높음)

집중구조

 

13. 분석 프로젝트 관리 영역

-  시간

- 품질

- 범위

 

 

14. 반복에 대한 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.

  • 정답: 나선형 모델
  • 해설: 나선형 모델(Spiral Model)은 반복적이고 점진적인 개발 방식을 채택하며, 각 반복(iteration)마다 위험을 평가하고 조치를 취하는 특징이 있다. 반복 관리가 효과적이지 않으면 프로젝트가 복잡해지고 진행이 어려울 수 있다.

15. 다중 회귀 모형의 통계적 유의성

정답: F-통계량 확인

설명:

다중 회귀 모형에서는 회귀 계수가 유의한지를 검정하기 위해 F-통계량을 사용합니다. 이는 전체 회귀식이 통계적으로 유의한지를 판단하는 방법입니다.

귀무가설은 다음과 같습니다:

\[ H_0: \beta_1 = \beta_2 = ... = \beta_k = 0 \]

이는 독립변수들이 종속변수에 영향을 미치지 않는다는 것을 의미합니다.


16. R 코드 실행 결과 분석

X <- 1:5
Y <- seq(10, 50, 10)
T <- rbind(X, Y)

실행 결과:

  1. dim(T)의 결과는 [1] 2 5
    • rbind()는 행 방향으로 데이터를 결합하여 2 × 5 행렬을 생성한다.
  2. T[1, ]의 결과는 X와 동일
    • 행렬에서 첫 번째 행을 선택하면 X 값 [1 2 3 4 5]이 반환된다.
  3. T[, 1]의 결과는 Y와 다르다.
    • T[,1]은 첫 번째 열을 선택하는 것이므로 1, 10이 반환된다. Y와 같지 않다.
  4. rbind() 사용 시 조건:
    • 결합할 데이터셋의 열 개수가 동일해야 한다. 즉, X와 Y 모두 5개의 원소를 가져야 한다.

 

17. 유클리드 거리 기반 계층적 군집 분석 결과

주어진 2차원 좌표:

  • A(5,2)
  • B(3,5)
  • D(6,4)
  • E(5,3)
  • F(3,8)

계산 과정:

유클리드 거리 공식:

\[ d(A, B) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} \]

두 점 A(5,2)와 B(3,5)의 거리:

\[ d(A, B) = \sqrt{(5 - 3)^2 + (2 - 5)^2} = \sqrt{4 + 9} = \sqrt{13} \]

두 점 D(6,4)와 E(5,3)의 거리:

\[ d(D, E) = \sqrt{(6 - 5)^2 + (4 - 3)^2} = \sqrt{1 + 1} = \sqrt{2} \]

군집 결과:

(A, B), (F), (D, E)

 


 

18. 연관 규칙 딸기 → 사과 향상도(Lift) 계산

데이터:

항목 거래 수
딸기 100
사과 100
50
딸기, 사과 500
딸기, 배 300
사과, 배 200
딸기, 사과, 배 100
전체 거래 건수 1450

향상도(Lift) 계산:

향상도 공식:

\[ Lift = \frac{P(A \cap B)}{P(A) P(B)} \]

확률 계산:

\[ P(딸기) = \frac{100}{1450} \]

\[ P(사과) = \frac{100}{1450} \]

\[ P(딸기 \cap 사과) = \frac{500}{1450} \]

향상도 계산:

\[ Lift = \frac{\frac{500}{1450}}{\left(\frac{100}{1450} \times \frac{100}{1450}\right)} \]

\[ = \frac{500}{\left(\frac{100 \times 100}{1450}\right)} \]

\[ = 0.96 \]

따라서, 향상도는 0.96이다.

 


19. 자료 척도 설명

  1. 서열척도(Ordinal Scale):
    • 명목척도에 순위(서열)가 존재하는 경우.
    • 예: 만족도(매우 만족, 만족, 보통, 불만족), 학점(A, B, C, D, F)
  2. 연속형 자료의 척도:
    • 등간척도(Interval Scale): 차이를 비교할 수 있지만, 절대적인 "0"의 개념이 없음 (예: 온도, IQ 점수)
    • 비율척도(Ratio Scale): 절대적 "0"이 존재하여 비율 계산이 가능 (예: 키, 몸무게, 연봉)
  3. 명목척도(Nominal Scale):
    • 범주형 데이터로 순위가 없음.
    • 예: 성별(남, 여), 혈액형(A, B, O, AB)

 

20. 이산형 확률변수의 기댓값(E(X)) 계산

이산형 확률변수란?

이산형 확률변수는 개별적인 값을 가지며, 각각의 값에 확률이 할당됩니다.

기댓값(E(X))이란?

기댓값(Expected Value, E(X))은 확률변수의 평균적인 값을 의미하며, 각 값에 해당 확률을 곱한 후 모두 더하여 계산됩니다.

기댓값 계산 공식:

\[ E(X) = \sum X_i P(X_i) \]

예제:

만약 확률분포가 다음과 같다면:

X P(X)
1 0.2
2 0.3
3 0.5

기댓값 계산 과정:

\[ E(X) = (1 \times 0.2) + (2 \times 0.3) + (3 \times 0.5) \]

\[ = 0.2 + 0.6 + 1.5 \]

\[ = 2.3 \]

따라서, 기댓값은 2.3이다.

 


 

문제 정리 및 쉬운 설명

1. 서로 다른 타입의 데이터 저장 가능 여부

✔ 벡터: ❌ (같은 타입만 저장 가능)

✔ 행렬: ❌ (같은 타입만 저장 가능)

✔ 스칼라: ❌ (숫자 하나만 저장 가능)

✔ 리스트: ✅ (여러 타입 저장 가능!)

2. 비모수 검정 특징

✔ 모집단의 분포를 가정하지 않음

✔ 데이터의 순서나 부호를 활용

✔ 모수를 정하기 어렵거나 많을 때 사용

쉽게 말하면? "특별한 수학 가정 없이 데이터를 비교하는 방법!"

3. SOM (자기조직화 지도) 특징

✔ 차원 축소 + 군집화 동시에 수행

✔ 데이터를 분석하여 비슷한 데이터끼리 묶음

✔ 비지도 학습 기법

쉽게 말하면? "비슷한 데이터를 자동으로 그룹화하는 AI 기술!"

4. 다중회귀분석 결과의 데이터 개수

✔ 독립변수 개수 + 절편 개수만큼 결과가 나온다!

5. 보험사에서 해지 예상 고객 예측 기법

✔ 군집 분석: 비슷한 고객 그룹 찾기

✔ 연관 분석: 특정 행동 패턴 찾기

✔ 주성분 분석: 변수 수 줄이기

쉽게 말하면? "고객을 그룹화하거나 행동 패턴을 찾아 예측하는 방법!"

6. 회귀분석과 결정계수

✔ 결정계수가 클수록 설명력이 높음

✔ 결정계수는 0~1 사이의 값

쉽게 말하면? "R² 값이 클수록 모델이 데이터를 잘 설명하는 거야!"

7. 잘못 분류된 데이터에 가중치를 주어 학습하는 기법

✔ 부스팅(Boosting): 틀린 데이터에 더 집중해서 다시 학습!

쉽게 말하면? "처음에 틀린 데이터에 더 집중해서 배우는 학습법!"

8. 현재 값에서 이전 값을 빼는 것

✔ 차분(Differencing)

쉽게 말하면? "어제 값과 오늘 값을 빼서 변화를 보는 방법!"

9. 잔차(오차)의 제곱합을 최소화하는 방법

✔ 최소제곱법(Least Squares Method)

쉽게 말하면? "가장 잘 맞는 직선을 찾는 방법!"

10. 이산형 확률변수의 기댓값 (E(X))

E(X) = ∑ Xi P(Xi)

쉽게 말하면? "확률을 고려한 평균 구하는 방법!"

 

 

문제 정리 및 쉬운 해설

1. 서로 다른 타입의 데이터 저장 가능 여부

✔ 리스트: ✅ (여러 타입 저장 가능!)

❌ 벡터: 같은 타입만 저장 가능

❌ 행렬: 같은 타입만 저장 가능

❌ 스칼라: 숫자 하나만 저장 가능

해설: 리스트만 여러 타입을 저장할 수 있고, 나머지는 하나의 타입만 가능!

2. 비모수 검정 특징

✔ 모집단의 분포를 가정하지 않음

✔ 데이터의 순서나 부호를 활용

✔ 모수를 정하기 어렵거나 많을 때 사용

❌ 평균, 분산을 이용한 검정을 한다 (비모수 검정은 평균, 분산을 사용하지 않음)

해설: 비모수 검정은 모집단 분포를 가정하지 않고, 데이터 순서를 활용해 검정하는 방법이다.

3. SOM (자기조직화 지도) 특징

✔ 차원 축소 + 군집화 동시에 수행

✔ 데이터를 분석하여 비슷한 데이터끼리 묶음

✔ 비지도 학습 기법

❌ SOM은 역전파 알고리즘을 사용한다 (SOM은 역전파를 사용하지 않음)

해설: SOM은 데이터 특징을 분석하고, 비슷한 데이터를 묶는 비지도 학습 기법이다.

4. 다중회귀분석 결과의 데이터 개수

✔ 독립변수 개수 + 절편 개수만큼 결과가 나온다!

❌ 독립변수 개수와 동일하다 (절편을 포함해야 한다)

해설: 회귀 분석에서는 독립변수 개수뿐만 아니라 절편도 포함하여 결과가 나온다.

5. 보험사에서 해지 예상 고객 예측 기법

✔ 군집 분석: 비슷한 고객 그룹 찾기

✔ 연관 분석: 특정 행동 패턴 찾기

✔ 주성분 분석: 변수 수 줄이기

❌ 로지스틱 회귀는 군집 분석보다 적절하지 않음 (군집 분석이 더 적절함)

해설: 고객을 특정 그룹으로 나누거나 행동 패턴을 분석하는 것이 해지 고객 예측에 효과적이다.

6. 회귀분석과 결정계수

✔ 결정계수가 클수록 설명력이 높음

✔ 결정계수는 0~1 사이의 값

❌ 결정계수는 무조건 1에 가까워야 한다 (항상 그런 것은 아님)

해설: 결정계수(R²)는 0~1 사이이며, 1에 가까울수록 회귀 모델이 데이터를 잘 설명한다.

7. 잘못 분류된 데이터에 가중치를 주어 학습하는 기법

✔ 부스팅(Boosting): 틀린 데이터에 더 집중해서 다시 학습!

❌ 배깅(Bagging)은 독립적으로 학습하는 방식 (부스팅과 다름)

해설: 부스팅은 틀린 데이터에 더 가중치를 주어 학습하는 방식이다.

8. 현재 값에서 이전 값을 빼는 것

✔ 차분(Differencing)

❌ 이동 평균은 과거 값을 평균 내는 방식 (차분이 아님)

해설: 차분은 이전 값과 현재 값을 빼서 변화를 분석하는 기법이다.

9. 잔차(오차)의 제곱합을 최소화하는 방법

✔ 최소제곱법(Least Squares Method)

❌ 최대우도법은 확률을 최대로 하는 방식 (잔차를 최소화하는 방법이 아님)

해설: 최소제곱법은 예측값과 실제값의 차이를 최소화하는 방법이다.

10. 이산형 확률변수의 기댓값 (E(X))

E(X) = ∑ Xi P(Xi)

✔ 확률을 고려한 평균 구하는 방법!

❌ 일반적인 평균 구하는 방식과 동일하다고 생각하면 안됨 (확률을 반영해야 함)

해설: 기댓값은 각각의 값에 확률을 곱한 후 모두 더한 값으로 계산한다.