데이터 분석가에게 더 필요한 능력
데이터 분석 수업을 하면서 계속 마주치는 질문에 대한 생각
데이터 분석 수업을 하면서 계속 마주치는 질문이 있다.
머신러닝 예측 모델을 만드는 것이 취업준비에 가장 중요한 부분일까?
데이터 분석 수업을 하다 보면 매 기수마다 반복해서 느끼는 장면이 있다.
학생들은 대부분 “예측 모델을 만드는 것”에 가장 큰 관심을 보인다.
XGBoost, RandomForest, 신경망, 성능 지표, 하이퍼파라미터 튜닝 등…
모델의 정확도가 조금이라도 오르면 성취감을 느낀다.
그런데 수업을 진행할수록, 그리고 과제 결과를 하나하나 보면서 나는 늘 같은 생각을 하게 된다.
“이 예측 결과에 대해 “왜?”라는 부분을 설명할 수 있을까?
학생들은 왜 예측에 먼저 집착할까?
학생들의 태도는 이해할 수 있다.
- 숫자로 성능이 바로 보이고
- 코드가 돌아가면 결과가 나오고
- ‘맞혔다’는 느낌이 즉각적으로 온다
반면 통계 기반 요인 분석은 다르다.
- 가정이 무엇인지 따져야 하고
- 계수를 해석해야 하고
- 왜 이 변수를 넣었는지 설명해야 한다
- 무엇을 말할 수 없는지도 말해야 한다
즉, 느리고 귀찮고 어렵다.
그래서 많은 학생들이 “일단 예측부터 하고 보자”는 태도를 갖는다.
수업을 하면서 느낀 가장 큰 간극
하지만 수업을 통해 드러나는 현실은 명확하다.
포트폴리오에 대한 피드백 과정에서 예측 모델을 먼저 배운 학생일수록 다음 질문을 어려워한다.
- 이 변수가 왜 중요한가요?
- 정책적으로 뭘 바꾸라는 건가요?
- 이 결과를 믿어도 되나요?
- 데이터가 바뀌면 어떻게 되나요?
모델은 있지만 이야기가 없다.
반대로 통계 기반 요인 분석을 충분히 거친 학생은 예측 모델을 만들 때 태도가 완전히 다르다.
- 변수 하나하나에 이유가 있고
- 결과 해석의 방향이 분명하며
- 성능보다 구조를 먼저 본다
예측은 기술이고, 요인 분석은 사고다
수업을 하면서 점점 확신하게 된 생각이 있다.
예측 모델링은 기술(skill) 이고 통계 기반 요인 분석은 사고방식(thinking) 이다.
기술은 나중에라도 따라잡을 수 있다.
하지만 사고방식은 순서를 건너뛰면 쉽게 생기지 않는다.
그래서 나는 늘 이렇게 말하게 된다.
“예측을 잘하는 분석가보다, 예측을 설명할 수 있는 분석가가 훨씬 더 경쟁력이 있다.”
머신러닝을 하지 말라는 이야기는 아니다
이 글의 목적은 머신러닝을 부정하는 것이 아니다.
오히려 반대다.
머신러닝은 통계적 사고 위에 얹혔을 때 가장 강력해진다.
- 회귀로 방향과 크기를 이해한 뒤
- 머신러닝으로 비선형성과 상호작용을 확인하고
- 다시 해석 가능한 언어로 정리하는 것
이 순서를 밟은 학생들은 SHAP, 중요도, 예측 결과를 의미 있는 이야기로 바꾼다.
머신러닝이 ‘정답 생성기’가 아니라 ‘질문 확장 도구’가 되는 순간이다.
수업을 통해 학생들에게 꼭 전하고 싶은 메시지
이 글은 기술 비교 글이 아니라 수업을 하며 학생들을 보면서 생긴 회고다.
내가 학생들에게 가장 전하고 싶은 메시지는 이것이다.
예측 모델을 만드는 법보다 먼저 배워야 할 것은 “왜 이 변수를 보려 하는가”이다.
통계 기반 요인 분석은 속도를 늦추는 과정이 아니라 방향을 잡는 과정이다.
이 과정을 건너뛰면 아무리 정교한 모델을 만들어도 분석가는 설명하지 못하는 사람이 된다.
마무리하며
AI와 자동화 도구는 계속 발전할 것이다.
예측 모델은 점점 더 쉽게 만들 수 있게 될 것이다.
하지만 수업을 하면서 나는 확신한다.
- 결과를 해석하고
- 한계를 말하고
- 의사결정으로 연결하는 역할은
- 여전히 사람의 몫이다.
통계는 옛날 도구가 아니라 분석가의 사고를 만드는 언어이다.
그리고 그 언어를 익힌 뒤에 머신러닝을 공부해도 결코 늦지 않을 것이다.
