[ADSP] 오답정리

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

단죤 의 블로그

[ADSP] 오답정리 본문

시험준비 🧪

[ADSP] 오답정리

단죤 2025. 2. 10. 14:39

문제 정리

서로 다른 타입의 데이터 저장 가능 여부
- 벡터 ❌
- 행렬 ❌
- 스칼라 ❌
비모수 검정 특징
- 모집단의 분포를 가정하지 않음
- 데이터의 순서, 부호 등을 활용
- 모수를 정하기 어렵거나 많을 때 사용
SOM (자기조직화 지도) 특징
- 차원 축소 + 군집화 동시에 수행
- 데이터의 특징을 분석하여 비슷한 데이터끼리 묶음
- 비지도 학습 기법
다중회귀분석 결과의 데이터 개수
- (정확한 조건 필요)
보험사에서 해지 예상 고객 예측에 적절한 기법
- 군집 분석: 비슷한 고객 그룹 찾기
- 연관 분석: 특정 행동 패턴 찾기
- 주성분 분석: 변수 수 줄이기
회귀분석과 결정계수
- 결정계수가 클수록 설명력이 높음
- 결정계수는 0~1 사이 값
- 회귀계수의 유의성 검증: T값과 P값 확인
회귀분석 개념
- 선형 회귀는 종속변수가 연속형일 때 사용
- 검정 방법: F-TEST, T-TEST
- 로지스틱 회귀 분석의 탐색 방법: 최대우도법
- 회귀식 기울기 검정:
  - 귀무가설: 기울기 = 0
  - 대립가설: 기울기 ≠ 0
잘못 분류된 데이터에 가중치를 주어 학습하는 기법
- 부스팅(Boosting)
현재 값에서 이전 값을 빼는 것
- 차분(Differencing)
잔차(오차)의 제곱합을 최소화하는 방법

최소제곱법(Least Squares Method)

11. 문제 탐색 도구

- 비즈니스 모델 기반 문제 탐색

- 외부 참조 모델 기반 문제 탐색

- 분석 유즈케이스

12. 분석 조직 구조

(협업 업무 부서의 분석 업무와 이중화 / 이원화 가능성이 높음)

집중구조

13. 분석 프로젝트 관리 영역

- 시간

- 품질

- 범위

14. 반복에 대한 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.

정답: 나선형 모델
해설: 나선형 모델(Spiral Model)은 반복적이고 점진적인 개발 방식을 채택하며, 각 반복(iteration)마다 위험을 평가하고 조치를 취하는 특징이 있다. 반복 관리가 효과적이지 않으면 프로젝트가 복잡해지고 진행이 어려울 수 있다.

15. 다중 회귀 모형의 통계적 유의성

정답: F-통계량 확인

설명:

다중 회귀 모형에서는 회귀 계수가 유의한지를 검정하기 위해 F-통계량을 사용합니다. 이는 전체 회귀식이 통계적으로 유의한지를 판단하는 방법입니다.

귀무가설은 다음과 같습니다:

\[ H_0: \beta_1 = \beta_2 = ... = \beta_k = 0 \]

이는 독립변수들이 종속변수에 영향을 미치지 않는다는 것을 의미합니다.

16. R 코드 실행 결과 분석

X <- 1:5
Y <- seq(10, 50, 10)
T <- rbind(X, Y)

실행 결과:

dim(T)의 결과는 [1] 2 5
- rbind()는 행 방향으로 데이터를 결합하여 2 × 5 행렬을 생성한다.
T[1, ]의 결과는 X와 동일
- 행렬에서 첫 번째 행을 선택하면 X 값 [1 2 3 4 5]이 반환된다.
T[, 1]의 결과는 Y와 다르다.
- T[,1]은 첫 번째 열을 선택하는 것이므로 1, 10이 반환된다. Y와 같지 않다.
rbind() 사용 시 조건:
- 결합할 데이터셋의 열 개수가 동일해야 한다. 즉, X와 Y 모두 5개의 원소를 가져야 한다.

17. 유클리드 거리 기반 계층적 군집 분석 결과

주어진 2차원 좌표:

A(5,2)
B(3,5)
D(6,4)
E(5,3)
F(3,8)

계산 과정:

유클리드 거리 공식:

\[ d(A, B) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} \]

두 점 A(5,2)와 B(3,5)의 거리:

\[ d(A, B) = \sqrt{(5 - 3)^2 + (2 - 5)^2} = \sqrt{4 + 9} = \sqrt{13} \]

두 점 D(6,4)와 E(5,3)의 거리:

\[ d(D, E) = \sqrt{(6 - 5)^2 + (4 - 3)^2} = \sqrt{1 + 1} = \sqrt{2} \]

군집 결과:

(A, B), (F), (D, E)

18. 연관 규칙 딸기 → 사과 향상도(Lift) 계산

데이터:

항목	거래 수
딸기	100
사과	100
배	50
딸기, 사과	500
딸기, 배	300
사과, 배	200
딸기, 사과, 배	100
전체 거래 건수	1450

향상도(Lift) 계산:

향상도 공식:

\[ Lift = \frac{P(A \cap B)}{P(A) P(B)} \]

확률 계산:

\[ P(딸기) = \frac{100}{1450} \]

\[ P(사과) = \frac{100}{1450} \]

\[ P(딸기 \cap 사과) = \frac{500}{1450} \]

향상도 계산:

\[ Lift = \frac{\frac{500}{1450}}{\left(\frac{100}{1450} \times \frac{100}{1450}\right)} \]

\[ = \frac{500}{\left(\frac{100 \times 100}{1450}\right)} \]

\[ = 0.96 \]

따라서, 향상도는 0.96이다.

19. 자료 척도 설명

서열척도(Ordinal Scale):
- 명목척도에 순위(서열)가 존재하는 경우.
- 예: 만족도(매우 만족, 만족, 보통, 불만족), 학점(A, B, C, D, F)
연속형 자료의 척도:
- 등간척도(Interval Scale): 차이를 비교할 수 있지만, 절대적인 "0"의 개념이 없음 (예: 온도, IQ 점수)
- 비율척도(Ratio Scale): 절대적 "0"이 존재하여 비율 계산이 가능 (예: 키, 몸무게, 연봉)
명목척도(Nominal Scale):
- 범주형 데이터로 순위가 없음.
- 예: 성별(남, 여), 혈액형(A, B, O, AB)

20. 이산형 확률변수의 기댓값(E(X)) 계산

이산형 확률변수란?

이산형 확률변수는 개별적인 값을 가지며, 각각의 값에 확률이 할당됩니다.

기댓값(E(X))이란?

기댓값(Expected Value, E(X))은 확률변수의 평균적인 값을 의미하며, 각 값에 해당 확률을 곱한 후 모두 더하여 계산됩니다.

기댓값 계산 공식:

\[ E(X) = \sum X_i P(X_i) \]

예제:

만약 확률분포가 다음과 같다면:

X	P(X)
1	0.2
2	0.3
3	0.5

기댓값 계산 과정:

\[ E(X) = (1 \times 0.2) + (2 \times 0.3) + (3 \times 0.5) \]

\[ = 0.2 + 0.6 + 1.5 \]

\[ = 2.3 \]

따라서, 기댓값은 2.3이다.

문제 정리 및 쉬운 설명

1. 서로 다른 타입의 데이터 저장 가능 여부

✔ 벡터: ❌ (같은 타입만 저장 가능)

✔ 행렬: ❌ (같은 타입만 저장 가능)

✔ 스칼라: ❌ (숫자 하나만 저장 가능)

✔ 리스트: ✅ (여러 타입 저장 가능!)

2. 비모수 검정 특징

✔ 모집단의 분포를 가정하지 않음

✔ 데이터의 순서나 부호를 활용

✔ 모수를 정하기 어렵거나 많을 때 사용

쉽게 말하면? "특별한 수학 가정 없이 데이터를 비교하는 방법!"

3. SOM (자기조직화 지도) 특징

✔ 차원 축소 + 군집화 동시에 수행

✔ 데이터를 분석하여 비슷한 데이터끼리 묶음

✔ 비지도 학습 기법

쉽게 말하면? "비슷한 데이터를 자동으로 그룹화하는 AI 기술!"

4. 다중회귀분석 결과의 데이터 개수

✔ 독립변수 개수 + 절편 개수만큼 결과가 나온다!

5. 보험사에서 해지 예상 고객 예측 기법

✔ 군집 분석: 비슷한 고객 그룹 찾기

✔ 연관 분석: 특정 행동 패턴 찾기

✔ 주성분 분석: 변수 수 줄이기

쉽게 말하면? "고객을 그룹화하거나 행동 패턴을 찾아 예측하는 방법!"

6. 회귀분석과 결정계수

✔ 결정계수가 클수록 설명력이 높음

✔ 결정계수는 0~1 사이의 값

쉽게 말하면? "R² 값이 클수록 모델이 데이터를 잘 설명하는 거야!"

7. 잘못 분류된 데이터에 가중치를 주어 학습하는 기법

✔ 부스팅(Boosting): 틀린 데이터에 더 집중해서 다시 학습!

쉽게 말하면? "처음에 틀린 데이터에 더 집중해서 배우는 학습법!"

8. 현재 값에서 이전 값을 빼는 것

✔ 차분(Differencing)

쉽게 말하면? "어제 값과 오늘 값을 빼서 변화를 보는 방법!"

9. 잔차(오차)의 제곱합을 최소화하는 방법

✔ 최소제곱법(Least Squares Method)

쉽게 말하면? "가장 잘 맞는 직선을 찾는 방법!"

10. 이산형 확률변수의 기댓값 (E(X))

E(X) = ∑ X_i P(X_i)

쉽게 말하면? "확률을 고려한 평균 구하는 방법!"

문제 정리 및 쉬운 해설

1. 서로 다른 타입의 데이터 저장 가능 여부

✔ 리스트: ✅ (여러 타입 저장 가능!)

❌ 벡터: 같은 타입만 저장 가능

❌ 행렬: 같은 타입만 저장 가능

❌ 스칼라: 숫자 하나만 저장 가능

해설: 리스트만 여러 타입을 저장할 수 있고, 나머지는 하나의 타입만 가능!

2. 비모수 검정 특징

✔ 모집단의 분포를 가정하지 않음

✔ 데이터의 순서나 부호를 활용

✔ 모수를 정하기 어렵거나 많을 때 사용

❌ 평균, 분산을 이용한 검정을 한다 (비모수 검정은 평균, 분산을 사용하지 않음)

해설: 비모수 검정은 모집단 분포를 가정하지 않고, 데이터 순서를 활용해 검정하는 방법이다.

3. SOM (자기조직화 지도) 특징

✔ 차원 축소 + 군집화 동시에 수행

✔ 데이터를 분석하여 비슷한 데이터끼리 묶음

✔ 비지도 학습 기법

❌ SOM은 역전파 알고리즘을 사용한다 (SOM은 역전파를 사용하지 않음)

해설: SOM은 데이터 특징을 분석하고, 비슷한 데이터를 묶는 비지도 학습 기법이다.

4. 다중회귀분석 결과의 데이터 개수

✔ 독립변수 개수 + 절편 개수만큼 결과가 나온다!

❌ 독립변수 개수와 동일하다 (절편을 포함해야 한다)

해설: 회귀 분석에서는 독립변수 개수뿐만 아니라 절편도 포함하여 결과가 나온다.

5. 보험사에서 해지 예상 고객 예측 기법

✔ 군집 분석: 비슷한 고객 그룹 찾기

✔ 연관 분석: 특정 행동 패턴 찾기

✔ 주성분 분석: 변수 수 줄이기

❌ 로지스틱 회귀는 군집 분석보다 적절하지 않음 (군집 분석이 더 적절함)

해설: 고객을 특정 그룹으로 나누거나 행동 패턴을 분석하는 것이 해지 고객 예측에 효과적이다.

6. 회귀분석과 결정계수

✔ 결정계수가 클수록 설명력이 높음

✔ 결정계수는 0~1 사이의 값

❌ 결정계수는 무조건 1에 가까워야 한다 (항상 그런 것은 아님)

해설: 결정계수(R²)는 0~1 사이이며, 1에 가까울수록 회귀 모델이 데이터를 잘 설명한다.

7. 잘못 분류된 데이터에 가중치를 주어 학습하는 기법

✔ 부스팅(Boosting): 틀린 데이터에 더 집중해서 다시 학습!

❌ 배깅(Bagging)은 독립적으로 학습하는 방식 (부스팅과 다름)

해설: 부스팅은 틀린 데이터에 더 가중치를 주어 학습하는 방식이다.

8. 현재 값에서 이전 값을 빼는 것

✔ 차분(Differencing)

❌ 이동 평균은 과거 값을 평균 내는 방식 (차분이 아님)

해설: 차분은 이전 값과 현재 값을 빼서 변화를 분석하는 기법이다.

9. 잔차(오차)의 제곱합을 최소화하는 방법

✔ 최소제곱법(Least Squares Method)

❌ 최대우도법은 확률을 최대로 하는 방식 (잔차를 최소화하는 방법이 아님)

해설: 최소제곱법은 예측값과 실제값의 차이를 최소화하는 방법이다.

10. 이산형 확률변수의 기댓값 (E(X))

E(X) = ∑ X_i P(X_i)

✔ 확률을 고려한 평균 구하는 방법!

❌ 일반적인 평균 구하는 방식과 동일하다고 생각하면 안됨 (확률을 반영해야 함)

해설: 기댓값은 각각의 값에 확률을 곱한 후 모두 더한 값으로 계산한다.

단죤 의 블로그

[ADSP] 오답정리 본문

[ADSP] 오답정리

15. 다중 회귀 모형의 통계적 유의성

17. 유클리드 거리 기반 계층적 군집 분석 결과

주어진 2차원 좌표:

계산 과정:

군집 결과:

18. 연관 규칙 딸기 → 사과 향상도(Lift) 계산

데이터:

향상도(Lift) 계산:

향상도 계산:

20. 이산형 확률변수의 기댓값(E(X)) 계산

이산형 확률변수란?

기댓값(E(X))이란?

기댓값 계산 공식:

예제:

기댓값 계산 과정:

문제 정리 및 쉬운 설명

1. 서로 다른 타입의 데이터 저장 가능 여부

2. 비모수 검정 특징

3. SOM (자기조직화 지도) 특징

4. 다중회귀분석 결과의 데이터 개수

5. 보험사에서 해지 예상 고객 예측 기법

6. 회귀분석과 결정계수

7. 잘못 분류된 데이터에 가중치를 주어 학습하는 기법

8. 현재 값에서 이전 값을 빼는 것

9. 잔차(오차)의 제곱합을 최소화하는 방법

10. 이산형 확률변수의 기댓값 (E(X))

문제 정리 및 쉬운 해설

1. 서로 다른 타입의 데이터 저장 가능 여부

2. 비모수 검정 특징

3. SOM (자기조직화 지도) 특징

4. 다중회귀분석 결과의 데이터 개수

5. 보험사에서 해지 예상 고객 예측 기법

6. 회귀분석과 결정계수

7. 잘못 분류된 데이터에 가중치를 주어 학습하는 기법

8. 현재 값에서 이전 값을 빼는 것

9. 잔차(오차)의 제곱합을 최소화하는 방법

10. 이산형 확률변수의 기댓값 (E(X))

티스토리툴바