본문 바로가기

DBA 부트캠프 기록

[패캠 BDA17] 기초 통계로 데이터 분석 완벽 이해 (2주차)

반응형
사진 출처 :  Ngọc Phạm ,핀터레스 https://kr.pinterest.com/pin/73535406410930974/

 

부트캠프 2주차: 데이터 분석 기초 통계 정복기

크리스마스는 잘 보내셨나요? 저는 부트캠프 공부도 하고, 크리스마스 케이크를 위해 운동도 열심히 했습니다.

벌써 부트캠프 2주차가 지나갔는데요, 이번 주는 데이터 분석 기초 통계를 배우는 시간이었습니다.

정말 쉽지 않은 주제였지만, 앞으로 데이터 분석의 기본이 되는 내용인 만큼 포기하지 않고 열심히 배워보려고 합니다. 😊


| 데이터 분석을 위한 기초 통계

통계학

  • 통계학은 데이터를 수집, 정리, 분석, 해석하는 학문
  • 데이터의 패턴을 이해하고 미래를 예측하거나 의사 결정을 돕는 도구로 사용

기술통계학

  • 데이터를 요약하고 시각화하여 정보를 전달하는 통계 기법.
  • 중심경향치: 평균, 중앙값, 최빈값
  • 산포도: 분산, 표준편차, 범위, 사분위수
  • 시각화: 히스토그램, 상자 그림(Boxplot), 산점도

추론통계학

  • 표본을 기반으로 모집단에 대한 결론을 내리는 통계 기법.
  • 주요 기법: 가설 검정, 신뢰구간, 회귀분석

모집단과 표본

  • 모집단: 연구 대상이 되는 전체 집단.
  • 표본: 모집단에서 선택된 일부 데이터.
  • 표본이 모집단을 잘 대표해야 추론 결과가 신뢰할 수 있음.

가설 검정

  • 표본 데이터를 바탕으로 모집단에 대한 주장(가설)의 타당성을 평가.
  • 귀무 가설 (H0) : 연구자가 부정하고자 하는 가설. (예: 두 평균은 같다.)
  • 대립 가설 (H1) : 연구자가 주장하고자 하는 가설. (예: 두 평균은 다르다.)
  • 대립 가설의 종류:
    • 양측 검정: H1 : μ1 ≠ μ2
    • 단측 검정: H1 : μ1 > μ2 또는 H1 : μ1 < μ2

가설 검정의 기준: p-value

  • p-value: 귀무 가설이 참이라는 가정하에 관측된 데이터가 나올 확률.
  • 작을수록 귀무 가설을 기각할 가능성이 높음.
  • 일반적으로 p<0.05 이면 귀무 가설을 기각.

t-test

  • 두 집단의 평균 차이를 검정하는 방법.
    • 등분산 가정 t-test : 두 집단의 분산이 같을 때.
    • 이분산 가정 t-test : 두 집단의 분산이 다를 때.
  • t-test 시행 단계
    1. 변수(집단) 선택
    2. F-검정
    3. t-test
    4. 결과 해석

F-검정

  • 두 집단의 분산이 동일한지 비교하는 검정 방법.
  • t-test 전에 분산의 동질성을 평가하는 데 사용.

회귀분석

  • 개념: 독립 변수와 종속 변수 간의 관계를 분석하는 기법.
  • 목적: 변수 간 관계 파악, 예측 모델 생성.
  • 종류:
    • 단순 선형 회귀 분석: 독립 변수가 하나일 때.
      • 평가 지표: 결정계수(r2), p-value.
    • 다중 선형 회귀 분석: 독립 변수가 여러 개일 때.
      • 분석 지표: 조정된 결정계수, F값, p-value 등.

시계열 데이터 분석

  • 개념: 시간의 흐름에 따라 수집된 데이터를 분석해 미래를 예측.
  • 유형:
    • 정상성 시계열 데이터: 일정한 추세와 계절성이 없는 데이터.
    • 비정상 시계열 데이터: 추세와 계절성이 포함된 데이터.
  • 분석 기법:
    • 지수 평활법: 최근 데이터를 더 큰 가중치로 반영해 미래를 예측.
      • 미래값 = α ⋅ 실제값 + (1 − α) ⋅ 과거 예측값
      • α: 가중치 (0~1 사이 값).
  • 엑셀 함수: FORECAST.ETS.

머신러닝

  • 정의: 데이터를 통해 학습하고 예측하는 알고리즘 개발.
  • 학습 종류:
    • 지도학습: 입력과 출력 데이터로 모델 학습. (예) 회귀분석, 분류
    • 비지도학습: 출력 데이터 없이 데이터의 구조를 학습. (예) 군집 분석
    • 강화학습: 보상을 최대화하는 행동 학습. (예) 게임 AI

| 데이터 시각화

  • 데이터를 시각적으로 표현하여 분석 결과를 쉽게 이해하고 전달하는 과정.
  • 중요성:
    • 데이터를 직관적으로 전달해 효과적인 의사결정을 지원.
    • 데이터 간의 관계를 파악하고 숨겨진 패턴을 발견.
    • 설득력 있는 스토리텔링 도구로 활용. (예: 나이팅게일의 로즈 다이어그램)
  • 구성 요소:
    1. 스토리 : 데이터 시각화의 목적. 데이터 분석을 통해 달성해야 하는 목표에 대해 다양한 이해 관계자와 의견을 나누어야 함.
    2. 데이터 : 데이터의 스토리를 설명하는데 도움이 되는 적절한 데이터 세트를 식별해야 함.
    3. 시각적 객체 : 새로운 인사이트를 공유하는데 가장 적합한 시각화 방법을 선택
  • 차트 설계 원칙:
    • 데이터의 핵심을 강조.
    • 데이터에 적합한 차트를 선택. (히스토그램, 선 그래프 등)

반응형