Post

데이터 분석가에게 더 필요한 능력

데이터 분석 수업을 하면서 계속 마주치는 질문에 대한 생각

데이터 분석가에게 더 필요한 능력

데이터 분석 수업을 하면서 계속 마주치는 질문이 있다.

머신러닝 예측 모델을 만드는 것이 취업준비에 가장 중요한 부분일까?

데이터 분석 수업을 하다 보면 매 기수마다 반복해서 느끼는 장면이 있다.

학생들은 대부분 “예측 모델을 만드는 것”에 가장 큰 관심을 보인다.

XGBoost, RandomForest, 신경망, 성능 지표, 하이퍼파라미터 튜닝 등…

모델의 정확도가 조금이라도 오르면 성취감을 느낀다.

그런데 수업을 진행할수록, 그리고 과제 결과를 하나하나 보면서 나는 늘 같은 생각을 하게 된다.

“이 예측 결과에 대해 “왜?”라는 부분을 설명할 수 있을까?

학생들은 왜 예측에 먼저 집착할까?

학생들의 태도는 이해할 수 있다.

  • 숫자로 성능이 바로 보이고
  • 코드가 돌아가면 결과가 나오고
  • ‘맞혔다’는 느낌이 즉각적으로 온다

반면 통계 기반 요인 분석은 다르다.

  • 가정이 무엇인지 따져야 하고
  • 계수를 해석해야 하고
  • 왜 이 변수를 넣었는지 설명해야 한다
  • 무엇을 말할 수 없는지도 말해야 한다

즉, 느리고 귀찮고 어렵다.

그래서 많은 학생들이 “일단 예측부터 하고 보자”는 태도를 갖는다.

수업을 하면서 느낀 가장 큰 간극

하지만 수업을 통해 드러나는 현실은 명확하다.

포트폴리오에 대한 피드백 과정에서 예측 모델을 먼저 배운 학생일수록 다음 질문을 어려워한다.

  • 이 변수가 왜 중요한가요?
  • 정책적으로 뭘 바꾸라는 건가요?
  • 이 결과를 믿어도 되나요?
  • 데이터가 바뀌면 어떻게 되나요?

모델은 있지만 이야기가 없다.

반대로 통계 기반 요인 분석을 충분히 거친 학생은 예측 모델을 만들 때 태도가 완전히 다르다.

  • 변수 하나하나에 이유가 있고
  • 결과 해석의 방향이 분명하며
  • 성능보다 구조를 먼저 본다

예측은 기술이고, 요인 분석은 사고다

수업을 하면서 점점 확신하게 된 생각이 있다.

예측 모델링은 기술(skill) 이고 통계 기반 요인 분석은 사고방식(thinking) 이다.

기술은 나중에라도 따라잡을 수 있다.

하지만 사고방식은 순서를 건너뛰면 쉽게 생기지 않는다.

그래서 나는 늘 이렇게 말하게 된다.

“예측을 잘하는 분석가보다, 예측을 설명할 수 있는 분석가가 훨씬 더 경쟁력이 있다.”

머신러닝을 하지 말라는 이야기는 아니다

이 글의 목적은 머신러닝을 부정하는 것이 아니다.

오히려 반대다.

머신러닝은 통계적 사고 위에 얹혔을 때 가장 강력해진다.

  • 회귀로 방향과 크기를 이해한 뒤
  • 머신러닝으로 비선형성과 상호작용을 확인하고
  • 다시 해석 가능한 언어로 정리하는 것

이 순서를 밟은 학생들은 SHAP, 중요도, 예측 결과를 의미 있는 이야기로 바꾼다.

머신러닝이 ‘정답 생성기’가 아니라 ‘질문 확장 도구’가 되는 순간이다.

수업을 통해 학생들에게 꼭 전하고 싶은 메시지

이 글은 기술 비교 글이 아니라 수업을 하며 학생들을 보면서 생긴 회고다.

내가 학생들에게 가장 전하고 싶은 메시지는 이것이다.

예측 모델을 만드는 법보다 먼저 배워야 할 것은 “왜 이 변수를 보려 하는가”이다.

통계 기반 요인 분석은 속도를 늦추는 과정이 아니라 방향을 잡는 과정이다.

이 과정을 건너뛰면 아무리 정교한 모델을 만들어도 분석가는 설명하지 못하는 사람이 된다.

마무리하며

AI와 자동화 도구는 계속 발전할 것이다.

예측 모델은 점점 더 쉽게 만들 수 있게 될 것이다.

하지만 수업을 하면서 나는 확신한다.

  • 결과를 해석하고
  • 한계를 말하고
  • 의사결정으로 연결하는 역할은
  • 여전히 사람의 몫이다.

통계는 옛날 도구가 아니라 분석가의 사고를 만드는 언어이다.

그리고 그 언어를 익힌 뒤에 머신러닝을 공부해도 결코 늦지 않을 것이다.

This post is licensed under CC BY 4.0 by the author.