이번 주 월요일, ADsP 자격증 시험 원서 접수 잘 하셨나요?
저는 10시에 시간 맞춰 집 근처 고사장에 무사히 접수 완료했습니다. 이제 본격적으로 공부를 시작하려고 하는데요, 1과목과 2과목은 각각 10문제씩 출제되기 때문에, 가장 많은 30문제가 출제되는 **3과목(데이터 분석)**부터 먼저 준비하려고 합니다. 오늘부터 시험일인 2월 22일까지 차근차근 계획적으로 공부해볼 예정입니다. 함께 열심히 준비해봐요! 😊
1장 R기초와 데이터 마트
1. R 데이터 구조
① 벡터 : 타입이 같은 여러 데이터를 하나의 행으로 저장. 1차원 데이터 구조
- concatenate(연결한다)의 c를 사용하여 데이터를 묶는다.
② 행렬 : 2차원 구조를 가진 벡터. 행렬에 저장된 모든 데이터는 같은 타입.
- matrix를 사용 - nrow : 행의 수 / ncol : 열의 수
- byrow = T 를 사용하여 행으로 저장
- dim함수를 사용하여 행의 개수와 열의 개수를 지정하여 행렬로 변환
③ 배열 : 3차원 이상의 구조를 갖는 벡터. 배열에 포함된 데이터는 모두 같은 타입.
④ 리스트 : 데이터 타입, 데이터 구조에 상관없이 원하는 모든 것을 저장.
⑤ 데이터프레임 : 데이터 분석을 위한 2차원 구조를 갖는 관계형 데이터 구조
- 여러 개의 벡터로 구성되어 있기 때문에 각 열은 서로 다른 타입의 데이터 구조를 갖을 수 있다.
(1) 통계함수
① sum / mean / median : 합계 / 평균 / 중앙값
② var / sd : 표본 분산 / 표본 표준편차
③ max / min / range : 최댓값 / 최솟값 / 최댓값과 최솟값
④ summary : 요약값
⑤ skewness : 왜도
⑥ kurtosis : 첨도
(2) 데이터 전처리
① subset : 데이터에서 조건식에 맞는 데이터를 추출
② merge : 두 데이터를 특정 공통된 열을 기준으로 병합
③ apply : 데이터에 열(or 행)별로 주어진 함수를 적용
2. 데이터 마트
1) 데이터 마트 : 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 작은 규모의 데이터 웨어하우스
- 데이터 마트 개발 : 분석 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업
- reshape, sqldf, plyr 등의 패키지를 활용
2) 데이터 전처리
- 데이터를 정제(cleansing) : 결측값과 이상값 처리
- 분석 변수 처리 : 변수 선택, 차원 축소, 파생변수 생성, 변수 변환, 클래스 불균형(불균형 데이터 처리)
3) R 패키지 활용
(1) reshape
① melt 함수 : 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터를 만듦
② cast 함수 : melt로 녹인 데이터의 요약을 위해 새롭게 가공
(2) sqldf : SQL 문장을 활용하여 R에서 데이터프레임을 다루는 것을 가능하게 해준다.
(3) plyr
- apply 함수를 기반으로 데이터를 분리하고 다시 결합하는 필수적인 데이터 처리 기능을 제공
- ddply
(4) data.table : 특정 컬럼별로 주솟값을 갖는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조
3. 데이터 탐색
(1) 탐색적 데이터분석(EDA) : 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통계값과 분포 등을 시각화하고 분석하는 것
(2) 결측값 : 존재하지 않는 데이터. (NA, Null, 공백, -1 등)
- Amelia, DMwR2
* 결측값 대치 방법
① 단순 대치법 : 결측값이 존재하면 데이터를 삭제
- 가장 쉬운 방법이지만, 대량의 데이터 손실 발생
- complete.cases 함수 사용
② 평균 대치법 : 평균 혹은 중앙값으로 결측값을 대치
- 비조건부 평균 대치법 : 데이터의 평균값으로 결측값을 대치
- 조건부 평균 대치법 : 실제 값들을 분석하여 회귀분석을 활용
- DMwR2 패키지의 centralImputation 함수 사용
③ 단순 확률 대치법 : 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완
- K-Nearest Neighbor 방법
④ 다중 대치법 : 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법
- 결측값 대치, 분석, 결합 세 단계로 구성
(3) 이상값 : 다른 데이터와 비교했을 때 극단적으로 크거나 작은 값을 의미
*이상값 판단
① ESD : 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값으로 인식하는 방법.
- 전체 데이터의 약 0.3%를 이상값으로 구분
② 사분위수 : Q1(25%)과 Q3(75%)을 활용하여 이상치를 판단하는 방법
- IQR = Q3 - Q1
- Q1 - 1.5 × IQR < x < Q3 + 1.5 × IQR
'자격증 시험준비' 카테고리의 다른 글
[SQLD 요약노트] 2과목: SQL 기본 – 핵심 내용 총정리 (0) | 2025.05.10 |
---|---|
경영정보시각화능력 자격증: 2025년 시험 가이드 (4) | 2025.05.09 |
[SQLD 요약노트] 1과목: 데이터 모델과 SQL – 핵심 용어 총정리 (2) | 2025.05.04 |
[SQLD 요약노트] 1과목: 데이터 모델링의 이해 – 핵심 용어 총정리 (3) | 2025.05.02 |
취업에 유리한 ADsP 자격증, 비전공자도 도전! (4) | 2025.01.17 |