본문 바로가기

프로젝트

IBM HR 데이터로 만드는 태블로 대시보드 프로젝트 1

반응형

 

HR 담당자라면 누구나 '우리 직원들은 왜 떠날까?'라는 고민을 한 번쯤 해보셨을 겁니다. 하지만 '요즘 애들은…'이라는 막연한 추측 대신, 데이터에 기반한 명확한 근거를 찾고 싶지 않으셨나요? 이번 프로젝트에서는 세계적인 기업 IBM의 실제 HR 데이터를 가지고, 태블로를 이용해 퇴사의 원인을 파헤치고 해결책까지 제시하는 대시보드를 만들어 보겠습니다.

 

이 글에서 얻을 수 있는 것

  • 태블로(Tableau)로 HR 데이터 분석 대시보드를 실전처럼 따라 만드는 방법
  • 직원 이직률, 직무/부서/연령/급여별 인사이트 등 실무에서 바로 쓸 수 있는 HR 지표 해석법
  • 포트폴리오/업무 보고에 바로 적용할 수 있는 대시보드 레이아웃, 시각화 팁

태블로 HR 대시보드 실습, 이직률 분석 예시, 데이터 시각화 실무 노하우가 궁금하다면 끝까지 읽어주세요!

 


 

프로젝트 개요

데이터셋: IBM HR Analytics Attrition Dataset (Kaggle, 1,470명/35변수)

분석 도구: Tableau Desktop

프로젝트 기간: 약 3~4시간 (초보자 기준)

난이도: ⭐⭐⭐☆☆ (중급, 실무형)

실제 글로벌 기업의 HR 데이터를 활용해 직원 이직 분석 대시보드를 만드는 프로젝트 실전 가이드입니다.

캐글에서 가장 인기 있는 HR 데이터셋 중 하나인 IBM HR Analytics 데이터를 사용해서, 실무에서 바로 활용 가능한 수준의 대시보드를 구축해보겠습니다.

 


 

데이터셋 분석 및 전처리

데이터 구조 파악

IBM HR 데이터셋은 1,470명의 직원 정보와 총 35개의 변수를 포함하고 있습니다.

 

핵심 변수들

변수명
설명
예시값
Attrition
이직 여부
Yes/No
Age
연령
35
Department
부서명
Sales, R&D, HR
JobRole
직무명
Research Scientist 등
MonthlyIncome
월급여
3000
YearsAtCompany
재직기간(년)
2
JobSatisfaction
직무 만족도(1~4)
3
WorkLifeBalance
워라밸(1~4)
2
DistanceFromHome
집-회사 거리(단위:km)
10

 

데이터 전처리 과정

1. 캐글에서 데이터 다운로드 (.csv 파일)

https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset/data

 

2. 엑셀에서 데이터 확인 및 기본 정제 - 결측값 확인 (다행히 이 데이터셋은 결측값이 없음) - 데이터 타입 확인 (숫자, 텍스트, 날짜 등)

 

3. Tableau에서 데이터 연결 - Text 파일 > CSV 선택 - 데이터 미리보기에서 각 필드 타입 확인

 


 

비즈니스 질문 & 분석 목표

대시보드를 만들기 전에 답하고 싶은 비즈니스 질문들을 정의했습니다.

  1. 전체 이직률은 어느 정도이며, 어떤 패턴을 보이는가?
  2. 부서별/직무별 이직률 차이는 얼마나 클까?
  3. 연령대별 이직 경향은 어떻게 다른가?
  4. 급여 수준과 이직률의 상관관계는?
  5. 근무 만족도가 이직에 미치는 영향은?
  6. 재직 기간과 이직률의 관계는?

 

태블로 HR 대시보드 단계별 구축법

1단계: KPI 카드 만들기

전체 현황 요약(계산된 필드 만들기)

  • 총 직원 수: COUNTD([Employee Number])
  • 이직자 수: SUM(IF [Attrition] = "Yes" THEN 1 ELSE 0 END)
  • 전체 이직률: SUM(IF [Attrition] = "Yes" THEN 1 ELSE 0 END) / COUNTD([Employee Number])
  • 평균 연령: AVG([Age])
  • 평균 재직기간: AVG([Years At Company])

시각화 팁: 큰 폰트와 색상 구분으로 한눈에 들어오도록 디자인

 

2단계: 부서별 이직률 분석

차트 유형: 누적 막대그래프

  • : Department
  • : 직원 수 (CNT)
  • 색상: Attrition
  • 정렬: 이직률 높은 순

주요 인사이트:

  • Sales 부서의 이직률이 상대적으로 높음 (약 20.6%)
  • HR 부서는 이직률이 낮지만 전체 인원이 적음
  • R&D 부서가 가장 많은 인원을 보유하지만 이직률은 중간 수준

 

 

3단계: 직무별 상세 분석

차트 유형: 트리맵

  • 크기: 직원 수
  • 색상: 이직률
  • 세부정보: Job Role

이 시각화를 통해 어떤 직무에서 이직률이 높은지, 그리고 해당 직무의 전체 인원 규모는 어느 정도인지 동시에 파악할 수 있음. 

 

 

4단계: 연령대별 이직 패턴

  • 계산된 필드 생성: Age Group

 

  • 차트 유형: 막대그래프
  • 인사이트: 18-20대 초반의 이직률이 가장 높고, 연령이 높아질수록 이직률 감소

 

5단계: 급여 수준이 이직률에 미치는 영향 분석

  • 차트 유형: 월급 구간별 이직률 막대 차트
  • X축 (열): Monthly Income (1K 단위 구간)

 

 

  • Y축 (행): 평균 이직률 (Average Attrition Rate)
  • 추세선 추가: 선형 회귀

인사이트: 월급 1,000달러대 구간의 이직률이 무려 54.6%에 달하는 충격적인 사실을 발견. 저임금 구간을 벗어나면서 이직률이 급격히 감소하는 패턴을 통해, 특정 임금 수준 이하의 직원들이 느끼는 불만이 퇴사로 이어질 확률이 매우 높다는 강력한 증거를 찾을 수 있었음.

 

 

6단계: 만족도별 이직 분석

차트 유형: 하이라이트 테이

  • : Job Satisfaction (1-4)
  • : Work Life Balance (1-4)
  • 왼쪽 '마크' 카드에서 드롭다운 메뉴를 '사각형(Square)'으로 변경
  • Attrition 변환 필드 '색상' 마크 위로 하나 끌어다 놓고, '레이블' 마크 위로 또 하나 끌어다 놓기
  • 두 필드 모두 마우스 오른쪽 버튼을 클릭하여 측정값을 [평균(Average)]으로 변경

 

인사이트: 직무 만족도와 워라밸 점수가 모두 1점인 그룹의 이직률이 압도적으로 높게 나타남. 반면, 두 만족도가 모두 높은 그룹은 이직률이 현저히 낮아, 두 가지 요소가 복합적으로 작용할 때 이직에 큰 영향을 미친다는 것을 확인함.

 

 

 7단계: '이직 위험 구간'과 '안정 구간' 발견 (재직 기간별 분석)

 

마지막으로, 직원들이 회사에 머무는 기간이 이직률에 어떤 영향을 미치는지 분석. 이를 위해 재직 기간별 전체 직원 수(막대그래프)평균 이직률(선그래프)을 하나의 차트에 이중 축으로 표현하여 두 지표의 관계를 입체적으로 살펴보았음.

    • 차트 유형: 이중 축 조합 차트 (막대 + 선)
    • X축: 재직 기간 (Years At Company)
    • Y축 1 (막대): 전체 직원 수
    • Y축 2 (선): 평균 이직률

 

 

인사이트1: 입사 초기 '이직 위험 구간'의 존재

분석 결과, 입사 후 만 1년이 되기 전(0년차)과 1년차에 이직률이 가장 높게 나타나는 '이직 위험 구간(Danger Zone)'이 명확하게 드러남. 특히 0년차의 이직률은 35%를 넘어서는 수준이었습니다. 이는 신입사원들이 조직에 완전히 적응하기 전에 이탈하는 경우가 많다는 것을 의미하며, 효과적인 온보딩 프로그램과 초기 경력 관리의 중요성이 보임

 

인사이트 2: 5년차 이후의 '안정 구간' 진입

반면, 재직 기간이 5년을 넘어서면서부터는 이직률이 눈에 띄게 낮아지며 '안정 구간(Stable Zone)'으로 진입하는 패턴을 보임. 이는 조직에 성공적으로 안착한 직원들은 장기 근속할 가능성이 높다는 긍정적인 신호로 해석할 수 있음.

 

차트 후반부(20년차 이상)를 보면 이직률이 갑자기 50%, 100%로 치솟는 구간들이 보임. 하지만 이를 "장기 근속자의 이직률이 높다"라고 해석해서는 안 됨. 해당 구간의 전체 직원 수(회색 막대)를 보면 단 1~2명에 불과. 이는 극소수의 인원이 퇴사한 것이 통계를 왜곡하는 '소수 데이터의 함정'. 따라서 통계적으로 유의미한 해석이 가능한 10년차 이전의 데이터 패턴에 더 집중해야 함. 이를 통해 데이터를 해석할 때는 항상 전체적인 맥락과 모수의 크기를 함께 고려하는 비판적인 시각이 필수적임을 다시 한번 확인할 수 있었음.

 


 

 

지금까지의 분석을 통해 발견한 핵심 인사이트

지금까지 우리는 5가지 핵심적인 관점(부서, 급여, 연령, 만족도, 재직 기간)에서 IBM 직원 데이터를 심층적으로 분석했습니다. 개별 차트들을 통해 발견한 주요 사실들을 종합하면, 퇴사 가능성이 높은 직원의 프로필을 그려볼 수 있습니다.

  • 전체 이직률: 16.1%로, 업계 평균 대비 다소 높은 수준
  • 고위험 그룹의 특징:
    • 부서/직무: 특히 '영업(Sales)' 부서의 '영업 대표(Sales Representative)' 직무
    • 연령 및 연차: 입사 1~2년차의 20대 후반 ~ 30대 초반 직원
    • 보상 수준: 월 급여 3,000달러 미만의 저임금 구간
    • 만족도: 직무 만족도와 워라밸 만족도가 모두 낮은 그룹

 

이처럼 데이터를 통해 우리는 막연한 추측이 아닌, 어떤 그룹에 집중해서 문제를 해결해야 할지에 대한 명확한 방향을 설정할 수 있었습니다.

 


 

마무리하며:

이번 1편에서는 IBM 직원 퇴사 데이터의 각 변수를 깊이 파고들어 숨겨진 패턴과 인사이트 조각들을 찾아내는 여정을 함께했습니다. 데이터가 말하는 스토리를 하나씩 발견하는 과정에서, 숫자 뒤에 숨겨진 직원들의 목소리를 듣는 듯한 느낌을 받았습니다.

하지만 진정한 데이터 분석의 가치는 이렇게 발견한 인사이트 조각들을 한데 모아, 누구나 한눈에 상황을 파악하고 올바른 의사결정을 내릴 수 있도록 돕는 '하나의 완성된 그림'으로 만드는 데 있습니다.

 

다음 2편에서는…

지금까지 만든 5개의 핵심 차트들을 조합하여, 실무에서 바로 활용 가능한 인터랙티브 대시보드를 구축하는 전체 과정을 공개합니다. 최적의 레이아웃 설계부터 필터 적용, 그리고 최종적으로 이 대시보드를 바탕으로 경영진에게 보고할 수 있는 구체적인 비즈니스 개선 방안까지 제안해 보겠습니다.

 

[IBM HR 데이터로 만드는 태블로 대시보드 프로젝트 2편]에서 계속됩니다.

반응형