자격증 시험준비

ADsP 3과목, 데이터 분석 정리!

노랑별이 2025. 1. 22. 00:27
반응형

사진 출처 : Tuana Durucu, 핀터레스https://kr.pinterest.com/pin/3659243439856019/

 

 

 

이번 주 월요일, ADsP 자격증 시험 원서 접수 잘 하셨나요?

저는 10시에 시간 맞춰 집 근처 고사장에 무사히 접수 완료했습니다. 이제 본격적으로 공부를 시작하려고 하는데요, 1과목과 2과목은 각각 10문제씩 출제되기 때문에, 가장 많은 30문제가 출제되는 **3과목(데이터 분석)**부터 먼저 준비하려고 합니다. 오늘부터 시험일인 2월 22일까지 차근차근 계획적으로 공부해볼 예정입니다. 함께 열심히 준비해봐요! 😊


1장 R기초와 데이터 마트

1. R 데이터 구조

① 벡터 : 타입이 같은 여러 데이터를 하나의 행으로 저장. 1차원 데이터 구조

- concatenate(연결한다)의 c를 사용하여 데이터를 묶는다.

② 행렬 : 2차원 구조를 가진 벡터. 행렬에 저장된 모든 데이터는 같은 타입.

- matrix를 사용 - nrow : 행의 수 / ncol : 열의 수

- byrow = T 를 사용하여 행으로 저장

- dim함수를 사용하여 행의 개수와 열의 개수를 지정하여 행렬로 변환

③ 배열 : 3차원 이상의 구조를 갖는 벡터. 배열에 포함된 데이터는 모두 같은 타입.

④ 리스트 : 데이터 타입, 데이터 구조에 상관없이 원하는 모든 것을 저장.

⑤ 데이터프레임 : 데이터 분석을 위한 2차원 구조를 갖는 관계형 데이터 구조

- 여러 개의 벡터로 구성되어 있기 때문에 각 열은 서로 다른 타입의 데이터 구조를 갖을 수 있다.

 

(1) 통계함수

① sum / mean / median : 합계 / 평균 / 중앙값  

② var / sd : 표본 분산 / 표본 표준편차

③ max / min / range : 최댓값 / 최솟값 / 최댓값과 최솟값

④ summary : 요약값

⑤ skewness : 왜도

⑥ kurtosis : 첨도

 

(2) 데이터 전처리

① subset : 데이터에서 조건식에 맞는 데이터를 추출

② merge : 두 데이터를 특정 공통된 열을 기준으로 병합

③ apply : 데이터에 열(or 행)별로 주어진 함수를 적용

 

2. 데이터 마트

1) 데이터 마트 : 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 작은 규모의 데이터 웨어하우스

- 데이터 마트 개발 : 분석 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업

- reshape, sqldf, plyr 등의 패키지를 활용

 

2) 데이터 전처리

- 데이터를 정제(cleansing) : 결측값과 이상값 처리

- 분석 변수 처리 : 변수 선택, 차원 축소, 파생변수 생성, 변수 변환, 클래스 불균형(불균형 데이터 처리)

 

3) R 패키지 활용

(1) reshape

① melt 함수 : 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터를 만듦

② cast 함수 : melt로 녹인 데이터의 요약을 위해 새롭게 가공

(2) sqldf : SQL 문장을 활용하여 R에서 데이터프레임을 다루는 것을 가능하게 해준다.

(3) plyr 

- apply 함수를 기반으로 데이터를 분리하고 다시 결합하는 필수적인 데이터 처리 기능을 제공

- ddply

(4) data.table : 특정 컬럼별로 주솟값을 갖는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조

 

3. 데이터 탐색

(1) 탐색적 데이터분석(EDA) : 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통계값과 분포 등을 시각화하고 분석하는 것

(2) 결측값 : 존재하지 않는 데이터. (NA, Null, 공백, -1 등)

- Amelia, DMwR2

* 결측값 대치 방법

① 단순 대치법 : 결측값이 존재하면 데이터를 삭제

- 가장 쉬운 방법이지만, 대량의 데이터 손실 발생

- complete.cases 함수 사용

② 평균 대치법 : 평균 혹은 중앙값으로 결측값을 대치

- 비조건부 평균 대치법 : 데이터의 평균값으로 결측값을 대치

- 조건부 평균 대치법 : 실제 값들을 분석하여 회귀분석을 활용

- DMwR2 패키지의 centralImputation 함수 사용

③ 단순 확률 대치법 : 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완

- K-Nearest Neighbor 방법

④ 다중 대치법 : 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법

- 결측값 대치, 분석, 결합 세 단계로 구성

(3) 이상값 : 다른 데이터와 비교했을 때 극단적으로 크거나 작은 값을 의미

*이상값 판단

① ESD : 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값으로 인식하는 방법. 

- 전체 데이터의 약 0.3%를 이상값으로 구분

② 사분위수 : Q1(25%)과 Q3(75%)을 활용하여 이상치를 판단하는 방법

- IQR = Q3 - Q1

- Q1 - 1.5 × IQR  < x < Q3 + 1.5 × IQR

반응형