단죤 의 블로그
[ADSP] 오답정리 본문
문제 정리
- 서로 다른 타입의 데이터 저장 가능 여부
- 벡터 ❌
- 행렬 ❌
- 스칼라 ❌
- 비모수 검정 특징
- 모집단의 분포를 가정하지 않음
- 데이터의 순서, 부호 등을 활용
- 모수를 정하기 어렵거나 많을 때 사용
- SOM (자기조직화 지도) 특징
- 차원 축소 + 군집화 동시에 수행
- 데이터의 특징을 분석하여 비슷한 데이터끼리 묶음
- 비지도 학습 기법
- 다중회귀분석 결과의 데이터 개수
- (정확한 조건 필요)
- 보험사에서 해지 예상 고객 예측에 적절한 기법
- 군집 분석: 비슷한 고객 그룹 찾기
- 연관 분석: 특정 행동 패턴 찾기
- 주성분 분석: 변수 수 줄이기
- 회귀분석과 결정계수
- 결정계수가 클수록 설명력이 높음
- 결정계수는 0~1 사이 값
- 회귀계수의 유의성 검증: T값과 P값 확인
- 회귀분석 개념
- 선형 회귀는 종속변수가 연속형일 때 사용
- 검정 방법: F-TEST, T-TEST
- 로지스틱 회귀 분석의 탐색 방법: 최대우도법
- 회귀식 기울기 검정:
- 귀무가설: 기울기 = 0
- 대립가설: 기울기 ≠ 0
- 잘못 분류된 데이터에 가중치를 주어 학습하는 기법
- 부스팅(Boosting)
- 현재 값에서 이전 값을 빼는 것
- 차분(Differencing)
- 잔차(오차)의 제곱합을 최소화하는 방법
- 최소제곱법(Least Squares Method)
11. 문제 탐색 도구
- 비즈니스 모델 기반 문제 탐색
- 외부 참조 모델 기반 문제 탐색
- 분석 유즈케이스
12. 분석 조직 구조
(협업 업무 부서의 분석 업무와 이중화 / 이원화 가능성이 높음)
집중구조
13. 분석 프로젝트 관리 영역
- 시간
- 품질
- 범위
14. 반복에 대한 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.
- 정답: 나선형 모델
- 해설: 나선형 모델(Spiral Model)은 반복적이고 점진적인 개발 방식을 채택하며, 각 반복(iteration)마다 위험을 평가하고 조치를 취하는 특징이 있다. 반복 관리가 효과적이지 않으면 프로젝트가 복잡해지고 진행이 어려울 수 있다.
15. 다중 회귀 모형의 통계적 유의성
정답: F-통계량 확인
설명:
다중 회귀 모형에서는 회귀 계수가 유의한지를 검정하기 위해 F-통계량을 사용합니다. 이는 전체 회귀식이 통계적으로 유의한지를 판단하는 방법입니다.
귀무가설은 다음과 같습니다:
\[ H_0: \beta_1 = \beta_2 = ... = \beta_k = 0 \]
이는 독립변수들이 종속변수에 영향을 미치지 않는다는 것을 의미합니다.
16. R 코드 실행 결과 분석
X <- 1:5
Y <- seq(10, 50, 10)
T <- rbind(X, Y)
실행 결과:
- dim(T)의 결과는 [1] 2 5
- rbind()는 행 방향으로 데이터를 결합하여 2 × 5 행렬을 생성한다.
- T[1, ]의 결과는 X와 동일
- 행렬에서 첫 번째 행을 선택하면 X 값 [1 2 3 4 5]이 반환된다.
- T[, 1]의 결과는 Y와 다르다.
- T[,1]은 첫 번째 열을 선택하는 것이므로 1, 10이 반환된다. Y와 같지 않다.
- rbind() 사용 시 조건:
- 결합할 데이터셋의 열 개수가 동일해야 한다. 즉, X와 Y 모두 5개의 원소를 가져야 한다.
17. 유클리드 거리 기반 계층적 군집 분석 결과
주어진 2차원 좌표:
- A(5,2)
- B(3,5)
- D(6,4)
- E(5,3)
- F(3,8)
계산 과정:
유클리드 거리 공식:
\[ d(A, B) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} \]
두 점 A(5,2)와 B(3,5)의 거리:
\[ d(A, B) = \sqrt{(5 - 3)^2 + (2 - 5)^2} = \sqrt{4 + 9} = \sqrt{13} \]
두 점 D(6,4)와 E(5,3)의 거리:
\[ d(D, E) = \sqrt{(6 - 5)^2 + (4 - 3)^2} = \sqrt{1 + 1} = \sqrt{2} \]
군집 결과:
(A, B), (F), (D, E)
18. 연관 규칙 딸기 → 사과 향상도(Lift) 계산
데이터:
항목 | 거래 수 |
---|---|
딸기 | 100 |
사과 | 100 |
배 | 50 |
딸기, 사과 | 500 |
딸기, 배 | 300 |
사과, 배 | 200 |
딸기, 사과, 배 | 100 |
전체 거래 건수 | 1450 |
향상도(Lift) 계산:
향상도 공식:
\[ Lift = \frac{P(A \cap B)}{P(A) P(B)} \]
확률 계산:
\[ P(딸기) = \frac{100}{1450} \]
\[ P(사과) = \frac{100}{1450} \]
\[ P(딸기 \cap 사과) = \frac{500}{1450} \]
향상도 계산:
\[ Lift = \frac{\frac{500}{1450}}{\left(\frac{100}{1450} \times \frac{100}{1450}\right)} \]
\[ = \frac{500}{\left(\frac{100 \times 100}{1450}\right)} \]
\[ = 0.96 \]
따라서, 향상도는 0.96이다.
19. 자료 척도 설명
- 서열척도(Ordinal Scale):
- 명목척도에 순위(서열)가 존재하는 경우.
- 예: 만족도(매우 만족, 만족, 보통, 불만족), 학점(A, B, C, D, F)
- 연속형 자료의 척도:
- 등간척도(Interval Scale): 차이를 비교할 수 있지만, 절대적인 "0"의 개념이 없음 (예: 온도, IQ 점수)
- 비율척도(Ratio Scale): 절대적 "0"이 존재하여 비율 계산이 가능 (예: 키, 몸무게, 연봉)
- 명목척도(Nominal Scale):
- 범주형 데이터로 순위가 없음.
- 예: 성별(남, 여), 혈액형(A, B, O, AB)
20. 이산형 확률변수의 기댓값(E(X)) 계산
이산형 확률변수란?
이산형 확률변수는 개별적인 값을 가지며, 각각의 값에 확률이 할당됩니다.
기댓값(E(X))이란?
기댓값(Expected Value, E(X))은 확률변수의 평균적인 값을 의미하며, 각 값에 해당 확률을 곱한 후 모두 더하여 계산됩니다.
기댓값 계산 공식:
\[ E(X) = \sum X_i P(X_i) \]
예제:
만약 확률분포가 다음과 같다면:
X | P(X) |
---|---|
1 | 0.2 |
2 | 0.3 |
3 | 0.5 |
기댓값 계산 과정:
\[ E(X) = (1 \times 0.2) + (2 \times 0.3) + (3 \times 0.5) \]
\[ = 0.2 + 0.6 + 1.5 \]
\[ = 2.3 \]
따라서, 기댓값은 2.3이다.
문제 정리 및 쉬운 설명
1. 서로 다른 타입의 데이터 저장 가능 여부
✔ 벡터: ❌ (같은 타입만 저장 가능)
✔ 행렬: ❌ (같은 타입만 저장 가능)
✔ 스칼라: ❌ (숫자 하나만 저장 가능)
✔ 리스트: ✅ (여러 타입 저장 가능!)
2. 비모수 검정 특징
✔ 모집단의 분포를 가정하지 않음
✔ 데이터의 순서나 부호를 활용
✔ 모수를 정하기 어렵거나 많을 때 사용
쉽게 말하면? "특별한 수학 가정 없이 데이터를 비교하는 방법!"
3. SOM (자기조직화 지도) 특징
✔ 차원 축소 + 군집화 동시에 수행
✔ 데이터를 분석하여 비슷한 데이터끼리 묶음
✔ 비지도 학습 기법
쉽게 말하면? "비슷한 데이터를 자동으로 그룹화하는 AI 기술!"
4. 다중회귀분석 결과의 데이터 개수
✔ 독립변수 개수 + 절편 개수만큼 결과가 나온다!
5. 보험사에서 해지 예상 고객 예측 기법
✔ 군집 분석: 비슷한 고객 그룹 찾기
✔ 연관 분석: 특정 행동 패턴 찾기
✔ 주성분 분석: 변수 수 줄이기
쉽게 말하면? "고객을 그룹화하거나 행동 패턴을 찾아 예측하는 방법!"
6. 회귀분석과 결정계수
✔ 결정계수가 클수록 설명력이 높음
✔ 결정계수는 0~1 사이의 값
쉽게 말하면? "R² 값이 클수록 모델이 데이터를 잘 설명하는 거야!"
7. 잘못 분류된 데이터에 가중치를 주어 학습하는 기법
✔ 부스팅(Boosting): 틀린 데이터에 더 집중해서 다시 학습!
쉽게 말하면? "처음에 틀린 데이터에 더 집중해서 배우는 학습법!"
8. 현재 값에서 이전 값을 빼는 것
✔ 차분(Differencing)
쉽게 말하면? "어제 값과 오늘 값을 빼서 변화를 보는 방법!"
9. 잔차(오차)의 제곱합을 최소화하는 방법
✔ 최소제곱법(Least Squares Method)
쉽게 말하면? "가장 잘 맞는 직선을 찾는 방법!"
10. 이산형 확률변수의 기댓값 (E(X))
E(X) = ∑ Xi P(Xi)
쉽게 말하면? "확률을 고려한 평균 구하는 방법!"
문제 정리 및 쉬운 해설
1. 서로 다른 타입의 데이터 저장 가능 여부
✔ 리스트: ✅ (여러 타입 저장 가능!)
❌ 벡터: 같은 타입만 저장 가능
❌ 행렬: 같은 타입만 저장 가능
❌ 스칼라: 숫자 하나만 저장 가능
해설: 리스트만 여러 타입을 저장할 수 있고, 나머지는 하나의 타입만 가능!
2. 비모수 검정 특징
✔ 모집단의 분포를 가정하지 않음
✔ 데이터의 순서나 부호를 활용
✔ 모수를 정하기 어렵거나 많을 때 사용
❌ 평균, 분산을 이용한 검정을 한다 (비모수 검정은 평균, 분산을 사용하지 않음)
해설: 비모수 검정은 모집단 분포를 가정하지 않고, 데이터 순서를 활용해 검정하는 방법이다.
3. SOM (자기조직화 지도) 특징
✔ 차원 축소 + 군집화 동시에 수행
✔ 데이터를 분석하여 비슷한 데이터끼리 묶음
✔ 비지도 학습 기법
❌ SOM은 역전파 알고리즘을 사용한다 (SOM은 역전파를 사용하지 않음)
해설: SOM은 데이터 특징을 분석하고, 비슷한 데이터를 묶는 비지도 학습 기법이다.
4. 다중회귀분석 결과의 데이터 개수
✔ 독립변수 개수 + 절편 개수만큼 결과가 나온다!
❌ 독립변수 개수와 동일하다 (절편을 포함해야 한다)
해설: 회귀 분석에서는 독립변수 개수뿐만 아니라 절편도 포함하여 결과가 나온다.
5. 보험사에서 해지 예상 고객 예측 기법
✔ 군집 분석: 비슷한 고객 그룹 찾기
✔ 연관 분석: 특정 행동 패턴 찾기
✔ 주성분 분석: 변수 수 줄이기
❌ 로지스틱 회귀는 군집 분석보다 적절하지 않음 (군집 분석이 더 적절함)
해설: 고객을 특정 그룹으로 나누거나 행동 패턴을 분석하는 것이 해지 고객 예측에 효과적이다.
6. 회귀분석과 결정계수
✔ 결정계수가 클수록 설명력이 높음
✔ 결정계수는 0~1 사이의 값
❌ 결정계수는 무조건 1에 가까워야 한다 (항상 그런 것은 아님)
해설: 결정계수(R²)는 0~1 사이이며, 1에 가까울수록 회귀 모델이 데이터를 잘 설명한다.
7. 잘못 분류된 데이터에 가중치를 주어 학습하는 기법
✔ 부스팅(Boosting): 틀린 데이터에 더 집중해서 다시 학습!
❌ 배깅(Bagging)은 독립적으로 학습하는 방식 (부스팅과 다름)
해설: 부스팅은 틀린 데이터에 더 가중치를 주어 학습하는 방식이다.
8. 현재 값에서 이전 값을 빼는 것
✔ 차분(Differencing)
❌ 이동 평균은 과거 값을 평균 내는 방식 (차분이 아님)
해설: 차분은 이전 값과 현재 값을 빼서 변화를 분석하는 기법이다.
9. 잔차(오차)의 제곱합을 최소화하는 방법
✔ 최소제곱법(Least Squares Method)
❌ 최대우도법은 확률을 최대로 하는 방식 (잔차를 최소화하는 방법이 아님)
해설: 최소제곱법은 예측값과 실제값의 차이를 최소화하는 방법이다.
10. 이산형 확률변수의 기댓값 (E(X))
E(X) = ∑ Xi P(Xi)
✔ 확률을 고려한 평균 구하는 방법!
❌ 일반적인 평균 구하는 방식과 동일하다고 생각하면 안됨 (확률을 반영해야 함)
해설: 기댓값은 각각의 값에 확률을 곱한 후 모두 더한 값으로 계산한다.