[2일차] HR 데이터 수집 방법 총정리 (근태·성과·만족도)
HR 애널리스트의 여정에서 가장 먼저 짚고 넘어가야 할 질문은 "우리는 어떤 데이터를 분석해야 하는가?"이다. 이 질문의 답은 HR 데이터의 출처와 수집 방식에서 시작된다. 데이터가 없다면 분석도 없다. 아무리 좋은 분석 도구와 알고리즘을 알고 있어도, 현실에서 수집된 실제 데이터 없이는 문제를 정의할 수도, 해결할 수도 없기 때문이다.
HR 데이터는 크게 정형 데이터와 비정형 데이터로 나눌 수 있다.
정형 데이터는 시스템에 체계적으로 저장된 숫자, 날짜, 코드 등의 데이터를 의미하며, 예를 들어 근태기록, 급여 내역, 성과 평가 점수, 채용 이력 등이 이에 해당한다. 이들은 대부분 HR 시스템(HRIS), ERP, 급여 관리 시스템, 또는 출퇴근 기록기 등에서 추출된다.
비정형 데이터는 설문 응답, 이메일 커뮤니케이션, 퇴사 면담 기록, 직원 제안서처럼 구조화되지 않은 텍스트 또는 오디오, 비디오 형태의 데이터를 말한다. 이 데이터들은 종종 사내 설문 플랫폼, 이메일 로그, HR 챗봇, 내부 커뮤니티, 회의록 등을 통해 수집된다. 최근에는 비정형 데이터를 정량화해 인사이트를 도출하려는 시도도 활발하다. 예를 들어 퇴사자 면담 내용을 텍스트 마이닝하여 공통된 이직 사유를 도출하거나, 직원 만족도 조사에서 자유 응답을 감정 분석하는 방식이다.

HR 데이터는 조직 내 다양한 시스템과 프로세스에서 생성된다. 주요 데이터 소스를 살펴보자.
1. HRIS(인사정보시스템)
HRIS는 HR 데이터의 핵심 저장소입니다. 여기에는 다음과 같은 정보가 포함된다.
- 직원 기본 정보(이름, 연락처, 주소)
- 고용 정보(입사일, 직위, 부서)
- 급여 및 보상 데이터
- 평가 이력
- 교육 및 자격증 기록
대부분의 기업은 Workday, SAP SuccessFactors, Oracle HCM과 같은 HRIS를 사용하여 인사 데이터를 관리한다. 이러한 시스템은 방대한 양의 데이터를 구조화된 형태로 저장하고 있어 분석에 용이하다.
2. ATS(지원자추적시스템)
채용 과정에서 생성되는 데이터는 ATS에 저장된다.
- 지원자 프로필 및 이력서
- 채용 단계별 진행 상황
- 면접 평가 결과
- 채용 소스 및 경로
- 지원자와의 커뮤니케이션 기록
Greenhouse, Lever, SmartRecruiters와 같은 ATS 도구들은 채용 데이터를 체계적으로 관리하고, 이 데이터는 채용 효율성 및 다양성 분석에 활용된다.
3. LMS(학습관리시스템)
직원 교육 및 개발과 관련된 데이터는 LMS에서 수집된다.
- 교육 이수 기록
- 기술 평가 결과
- 역량 개발 진행 상황
- 자기 주도 학습 활동
Cornerstone, Moodle, 365Learning과 같은 LMS는 직원 역량 개발 현황을 추적하고 분석하는 데 필요한 데이터를 제공한다.
4. 설문 및 피드백 시스템
직원 경험과 만족도 관련 데이터는 다음과 같은 도구에서 수집된다.
- 직원 만족도 조사
- 퇴사자 인터뷰
- 정기 펄스 서베이
- 360도 피드백
Qualtrics, SurveyMonkey, Culture Amp와 같은 도구를 통해 직원들의 의견과 피드백을 구조화된 데이터로 변환할 수 있다.
5. 근태 및 생산성 관리 시스템
직원의 근무 패턴과 생산성 관련 데이터는 다음 시스템에서 수집된다.
- 타임시트 및 출퇴근 기록
- 근무 스케줄 데이터
- 업무 완료 및 진행 상황
- 리모트 워크 활동 내역
Kronos, ADP, Asana, Jira와 같은 도구들은 근무 시간과 업무 진행 상황에 대한 데이터를 제공한다.
실제 현장 경험: 물류회사 HR 데이터 관리
나의 경험을 돌아보면, 물류회사 HR팀에서 일할 당시 가장 많이 다뤘던 데이터는 근무 스케줄, 입사자 정보, 지급품 수령 내역, 근태 기록 등이었다. 출퇴근 기록은 사내 시스템에서 일 단위로 수집되었고, 방한복/방한화 같은 지급품 관리 데이터는 Excel을 통해 수기로 작성되어 있었다. 이처럼 시스템화된 데이터와 비정형적인 관리 문서가 혼재된 형태는 실제 HR 현장에서 흔히 볼 수 있는 구조다.
HR 데이터 수집 방법
HR 데이터를 효과적으로 수집하기 위한 다양한 방법들이 있다.
1. API 연동을 통한 자동화된 데이터 수집
많은 HR 시스템은 API를 제공하여 데이터 분석 플랫폼과의 자동 연동을 지원한다. 예를 들어
- Workday API를 통해 인사 정보를 실시간으로 추출
- Slack API를 활용한 커뮤니케이션 패턴 분석
- MS Teams나 Google Workspace에서 협업 데이터 수집
API 연동은 데이터 수집 프로세스를 자동화하고 실시간 분석을 가능하게 한다.
2. 데이터베이스 쿼리를 통한 직접 추출
HR 시스템의 데이터베이스에 직접 접근하여 SQL 쿼리를 통해 필요한 데이터를 추출할 수 있다.
# 부서별 평균 성과 분석쿼리
SELECT department, AVG(performance_score) as avg_performance,
COUNT(*) as employee_count
FROM employee_records
WHERE evaluation_year = 2024
GROUP BY department
ORDER BY avg_performance DESC;
이러한 쿼리를 통해 부서별 평균 성과, 이직률, 교육 참여도 등 다양한 HR 지표를 분석할 수 있다.
3. ETL 프로세스를 통한 데이터 통합
다양한 소스의 HR 데이터를 분석 가능한 형태로 변환하고 통합하기 위해 ETL(추출-변환-적재) 프로세스를 활용한다.
- 여러 시스템에서 데이터 추출(Extract)
- 분석에 적합한 형태로 데이터 변환(Transform)
- 데이터 웨어하우스나 레이크에 적재(Load)
Talend, Informatica, Apache NiFi와 같은 ETL 도구를 활용하여 데이터 파이프라인을 구축할 수 있다.
4. 웹 스크래핑을 통한 외부 데이터 수집
HR 분석에는 내부 데이터뿐만 아니라 시장 동향, 급여 수준 등의 외부 데이터도 중요하다:
- Glassdoor, LinkedIn에서 시장 급여 정보 수집
- 산업별 이직률 벤치마크 데이터 확보
- 인재 시장 트렌드 정보 수집
Python의 Beautiful Soup, Selenium과 같은 라이브러리를 활용하여 웹 데이터를 구조화된 형태로 수집할 수 있다.
HR 데이터 수집 시 고려사항
데이터 품질 관리의 중요성
중요한 것은 데이터를 어떻게 '잘' 수집하느냐이다. 정확한 분석을 위해선 일관되고 신뢰할 수 있는 데이터가 필요하다. 예를 들어 출퇴근 시간 기록에서 누락이 잦거나, 설문 응답률이 낮으면 데이터의 대표성이 떨어지고 분석 결과에 편향이 생길 수 있다. 따라서 수집 단계부터 데이터 품질 관리에 신경 써야 하며, 필요하다면 수집 시스템 개선이나 사내 교육을 통해 정확도를 높이는 노력이 필요하다.
법적, 윤리적 고려사항
HR 데이터는 민감한 개인정보를 포함하므로 수집 과정에서 다음 사항을 반드시 고려해야 한다:
- 개인정보 보호: GDPR, 개인정보보호법 등 관련 법규를 준수해야 한다.
- 데이터 거버넌스: 데이터 접근 권한, 사용 목적, 보관 기간 등에 대한 명확한 정책을 수립해야 한다.
- 익명화 및 비식별화: 분석 과정에서 개인을 식별할 수 없도록 데이터를 처리해야 한다.
- 투명성과 신뢰: 개인정보 보호법에 따라 직원의 민감한 정보는 반드시 동의를 받고 수집되어야 하며, 수집 목적, 활용 범위, 저장 기간 등을 명확히 고지해야 한다.
데이터 기반 HR이 중요하다고 해서 '감시'처럼 느껴져선 안 된다. 직원 신뢰를 바탕으로 한 데이터 수집과 활용이 지속 가능한 HR 분석의 첫걸음이다.
마치며
정리하자면, HR 데이터는 우리가 발 딛고 있는 조직 안에서 끊임없이 생성되고 있다. 이를 어떻게 정의하고, 어떻게 수집하며, 어떤 기준으로 정제하느냐에 따라 이후 분석의 방향성과 수준이 결정된다. HR 데이터는 조직 내 다양한 시스템에서 생성되며, 이를 효과적으로 수집하고 통합하는 것은 HR 애널리스트의 핵심 역량이다. HRIS, ATS, LMS 등 각 시스템에서 생성되는 데이터를 API, SQL 쿼리, ETL 프로세스 등을 통해 수집하고, 이를 분석 가능한 형태로 가공하는 과정이 HR 애널리틱스의 첫 단계이다.