[패캠 BDA17] 엑셀 데이터 분석 가이드 : 실전 활용법 (1주차)

기다리던 '패스트캠퍼스 데이터 분석 부트캠프 17기'가 드디어 시작되었습니다!
데이터 분석을 본격적으로 배우기 위해 선택한 이 부트캠프는 저에게 특별한 의미가 있습니다.
온라인으로 진행되는 수업 덕분에 하루 8시간씩 학원에 가야 한다는 부담을 덜고, 제가 집중할 수 있는 최적의 환경에서 공부할 수 있다는 점이 가장 큰 장점입니다.
왜 데이터 분석 부트캠프를 선택했을까요?
1. 다양한 툴 학습
데이터 분석에 필요한 다양한 도구를 배우며 실무 능력을 키울 수 있습니다.
2. 총 4번의 실무 프로젝트
단순히 이론에 그치지 않고 실무 프로젝트를 통해 직접 경험하며 문제를 해결하는 능력을 기를 수 있습니다.
5개월 간의 여정
부트캠프 교육은 약 5개월 동안 진행됩니다.
저는 이 과정을 성실히 수료하여 데이터 분석가로서 현업에서 활약하고 싶은 목표를 가지고 있어요.
앞으로의 여정을 통해 많은 배움과 성장을 이루기를 기대하며, 꾸준히 기록을 남기며 노력하겠습니다. 😊
| 엑셀을 활용하여 데이터 분석하기
1. 데이터 분석 이해
1) 데이터 리터러시[ Data Literacy ]는 데이터를 종합적으로 처리하고 활용하는 능력
- 기술적 데이터 리터러시 : 기술적으로 읽고 쓰고 활용하며, 기초 통계량을 계산할 수 있는 역량
- 해석적 데이터 리터러시 : 데이터의 의미를 파악하고, 정보를 선별하여 필요한 인사이트를 도출
2) 데이터 분석
- 유용한 데이터를 정리, 변환, 모델링하여 의사결정을 지원
3) 데이터 분석의 목적

4) 데이터 사이언스[ Data Sceience ]
- 수학, 통계학, 컴퓨터 공학, 비즈니스 분야의 융합 학문으로 데이터 사이언티스트에게도 다양한 분야의 지식과 경험이 반드시 필요하다.
- 고급 분석 기술과 다양한 데이터를 다루는데 능숙하고, 데이터베이스 아키텍처를 수립하여 분석 결과를 이해 관계자들과 소통할 수 있는 사람이다.
5) CDS[ Citizen Data Scientist ]
- 주요 업무는 통계, 분석 분야는 아니지만, 고급 진단 분석이나 예측, 머신러닝 등을 사용하는 모델을 만들거나 생성하는 사람이다.
- 데이터 사이언티스트와 직무 또는 산업 전문가 사이의 연결고리 역할 수행 가능하다.
- 데이터 분석을 할 수 있는 직무 / 산업 전문가이다.
6) 데이터 분석 프로세스

① 문제정의 및 분석 목적 설정 : 발생한 문제 정의 및 분석 목적 설정
② 데이터 수집 : 문제 해결에 필요한 내/외부 데이터 수집
③ 데이터 탐색 : 피벗테이블을 활용하여 데이터 유형, 계급, 종류 파악 / 그래프를 활용하여 데이터 탐색 / 기초 통계량과 상관분석을 탐색
④ 데이터 전처리 : 함수를 활용하여 데이터 전처리 / 피벗, 텍스트 나누기 등을 활용하여 전처리 속도 향상 / 코드 입력 후 출력 결과만 보는 것이 아닌 전처리 과정 전체 확인 가능
⑤ 데이터 분석 : 직관적인 데이터 분석 뿐 아니라 통계적 기법이나 모델을 활용한 분석 가능
⑥ 검증 및 평가 : 개선 효과 계산, 과거 데이터와 비교, 다양한 방법 비교
⑦ 데이터 시각화 : 조건부 서식과 다양한 차트를 활용한 시각화, 대시보드 제작
2. 탐색적 데이터 분석(EDA)
1) 탐색적 데이터 분석[ Exploratory Data Analysis ]
- 데이터를 분석하고 결과를 내는 과정에서 지속적으로 해당 데이터 대한 '탐색과 이해'를 하여 충분한 정보를 찾을 수 있도록 하는 자료 분석 방법이다.
(1) 데이터 분석 도구
- 엑셀에서 다양한 통계적 데이터 분석을 수행할 수 있는 추가 기능
추가 방법 : [파일] > [옵션] > [추가 기능] > 분석 도구 팩 선택 > [이동] > 분석 도구 팩 > [확인]
(2) 기초 통계량 계산 및 결과 확인
[데이터] > [데이터 분석 도구] > [기술 통계법]
- 표준 오차 : 표본들의 평균의 전체 평균과 떨어져 있는 정도
- 중앙값 : 데이터를 순서대로 정렬했을 때 위치적으로 가장 중앙에 있는 값
- 최빈값 : 가장 많이 반복되는 데이터
- 표준 편차 : 평균과 각 데이터들의 편차를 나타냄
- 분산 : 데이터가 평균을 기준으로 얼마나 분산되어 있는지를 의미
- 첨도 : 데이터 분포의 뾰족한 정도
- 왜도 : 데이터 분포가 치우쳐 있는 정도
(3) 피벗 테이블
- 엑셀에서 커다란 표의 데이터를 요약하는 통계표
2) 결측치와 이상치 탐색
(1) 결측치(Missing Value)
- 데이터에 값이 없는 것
- NA : Not Available (유효하지 않음)
- Nan : Not a Number (숫자가 아님)
- Null : 아무것도 존재하지 않음
- 빈 칸 : 데이터가 입력되지 않음
- 결측치의 유형 및 비율에 따라 적절한 결측치 처리 방법을 결정해야 한다.
- 제거 : 결측치가 발생한 행, 열을 삭제 (가장 쉽고, 단순한 방식)
- 치환 : 결측치를 적당한 방법으로 대체
- 모델 기반 처리 : 결측치를 예측하는 새로운 모델 구성
(2) 이상치(Outlier)
- 특정 지정된 그룹에 분류되지 못한 값, 정상군의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치 → 일반적으로 -3δ (표준편차) 미만, +3δ 초과인 값을 이상치로 판정
- Z - Score : 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 나타내는 지표
- (자료값 - 평균) / 표준편차
- 양의 Z - Score 는 자료값이 평균보다 높음
- 음의 Z - Score 는 자료값이 평균보다 낮음
- 0에 가까운 Z - Score 는 자료 값이 평균과 비슷함
- Z - Score 가 3 이상이거나 -3 이하면 일반적으로 이상치로 판단함
(3) 사분위수
- 데이터를 4등분하는 값
- 1사분위수 위치 = 3.25
- 3사분위수 위치 = 7.75
- IQR[ Inter Quarile Range ]
- 1사분위수와 3사분위수 간의 거리 = 4.5
- IQR을 활용한 이상치 범위
- 이상치 하한 범위 : 3.25 - 1.5 X 4.5 = -3.5
- 이상치 상한 범위 : 7.75 + 1.5 X 4.5 = 14.5
- -3.5보다 작거나, 14.5보다 큰 수를 이상치로 판정
(4) 상자 도표[ Box Plot ]
- 5개의 수치적 자료를 활용하여 데이터의 분포와 범위를 표현한 그래프
→ Z - Score 와 IQR을 활용한 이상치 범위는 전반적으로 비슷하게 형성한다.
→ 이상치는 분석 결과의 질을 떨어뜨리거나 왜곡시킬 수 있어 제거 or 대체하는 경우가 많지만, 상황에 따라서 제거하지 않고 분석해야 하는 경우도 있다.
3) 상관 분석과 산점도
(1) 상관 분석
- 두 변수가 어떤 선형적 관계를 갖고 있는지 분석하는 방법
(2)상관 관계
- 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계
→ 상관계수를 통해 알 수 있다.
(3) 상관 계수(r)
- 두 변수의 상관성을 나타내며 일반적으로 피어슨 상관 계수를 사용
- -1 ≤ r ≤ 1
- 일반적으로 상관계수가
- +0.7 이상이면 양의 상관 관계(정비례)
- -0.7 이하이면 음의 상관 관계(반비례)
(4) 상관 계수표
- 분석 대상 변수들의 상관 관계를 한 눈에 보여주는 표
(5) EDA에서 상관 분석의 역할
- 인과 관계가 있을 것으로 예상되는 변수들을 선별해 분석의 우선순위를 정하여 시간과 비용의 효율성을 증대한다.
(6) 산점도
- 데이터를 점으로 표현해 흩어져 있는 정도를 파악하는 그래프
- [삽입] > [분산형 차트]
3. 데이터 전처리
- 데이터의 분석 목적과 방법에 맞게 데이터를 가공 또는 처리하는 과정
- 데이터 분석 과정 중 가장 많은 시간과 비용이 필요한 과정
1) 함수를 활용한 데이터 전처리
- IF 함수 : 데이터를 조건에 만족하는 값과 만족하지 않는 값으로 분류
- = IF ( 조건, 조건 만족, 조건 불만족 )
- VLOOKUP 함수 : 공통 열을 기준으로 N 번째 있는 데이터를 불러오는 함수
- =VLOOKUP( 찾을 데이터, 불러올 데이터 범위, 불러올 데이터의 열 번호, 0)
- 0은 일치, 1은 근사치
- =VLOOKUP( 찾을 데이터, 불러올 데이터 범위, 불러올 데이터의 열 번호, 0)
- MATCH 함수 : 찾고 싶은 값이 한 행/열에서 몇 번째 인지 숫자로 알려줌
- MATCH(찾고 싶은 값, 찾고 싶은 값이 포함된 단일 열/행 범위, 0)
- 1은 보다 작음, 0은 일치, -1 보다 큼
- MATCH(찾고 싶은 값, 찾고 싶은 값이 포함된 단일 열/행 범위, 0)
- INDEX 함수 : 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러옴
- INDEX(데이터의 전체 범위, 찾고 싶은 데이터의 범위 내 행 번호, 찾고 싶은 데이터의 범위 내 열 번호)
- COUNTIF 함수 : 하나의 조건을 만족하는 셀의 개수
- =COUNTIF (데이터의 개수를 파악할 셀 범위, "개수를 셀 데이터의 조건")
- COUNTIFS 함수 : 2개 이상의 조건을 동시에 만족하는 셀의 개수
- COUNTIFS (데이터의 개수를 파악할 셀 범위1, "개수를 셀 데이터의 조건1", 데이터의 개수를 파악할 셀 범위2, "개수를 셀 데이터의 조건2")
- SUMIF 함수 : 조건을 만족하는 데이터의 합을 계산
- =SUMIF (더할 조건들의 범위, 조건, 더할 값들의 범위)
- SUMIFS 함수 : 2개 이상의 조건을 만족하는 데이터의 합을 계산
- =SUMIF (더할 값들의 범위, 더할 조건들의 범위1, 조건1, 더할 조건들의 범위2, 조건2)
- FIND 함수 : 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력
- =FIND(찾을 텍스트, 텍스트 셀, 문자열을 찾기 시작할 위치)
- 찾고자 하는 단어가 텍스트에 포함되어 있지 않으면 VALUE 에러가 출력 IFERROR함수로 0으로 출력
- LEN 함수 : 텍스트에서 띄어쓰기를 포함한 모든 문자열의 개수를 세는 함수
4. 데이터 분석 / 모델링
1) 기술 통계학
요약 통계량, 그래프 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악
2) 추론 통계학
데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악
(1) 모집단 : 관심의 대상이 되는 집단
(2) 표본 : 모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터
(3) 가설 검정 : 통계적 추론의 하나로 모집단 실제의 값이 얼마가 된다는 주장과 관련해 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정
(4) 귀무 가설 : 기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설
(5) 대립 가설 : 귀무 가설에 대립하는 명제 (양측 검정, 단측 검정)
3) P - Value(유의 확률)
귀무 가설이 맞다는 전제 하에 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률
5% 유의 수준 차이가 나면 기각할 수 있다.
4) t - test
두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정
5) F 검정
- 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정
- F 검정의 귀무 가설 : 두 집단의 분산에 유의미한 차이가 없다.
- 분산이 같다. (P ≥ 유의수준)
- F 검정의 대립 가설 : 두 집단의 분산에 유의미한 차이가 있다.
- 분산이 다르다. (P < 유의수준)
- F 검정은 두 집단의 분산 차이를 검정해 각 상황에 맞는 t-test 방법을 선정하기 위해 사용
- P 값이 0.05 보다 크면 두 집단의 분산에 유의미한 차이가 없음 → 등분산 가정 t - test
- P 값이 0.05 보다 작으면 두 집단의 분산에 유의미한 차이가 있음 → 이분산 가정 t - test
- t - test 귀무 가설 : 두 집단의 평균에 유의만한 차이가 없다.
- p ≥ 유의수준
- t - test 대립 가설 : 두 집단의 평균에 유의만한 차이가 있다.
- p < 유의수준