새싹(SeSAC) | 전Z전능 데이터분석가/#2 데이터분석을 위한 핵심 기술

[성동3기 전Z전능 데이터 분석가] DAY 11 데이터분석을 위한 핵심 개념

mindata1 2025. 1. 7. 22:16

일 잘하는 사람의 생각법
 

데이터에 대해 본격적으로 배우기 전 '생각 정리' 에 대한 주제를 다뤘다. 왜 생각을 정리해야 할까? 데이터 분석가로서 생각을 정교하게 체계적으로 정리하는 능력이 요구된다고 한다. 

 
 

머릿속 생각 시각화하기

 

생각 정리가 잘 안되는 이유는 뭘까. 산발적으로 떠오르는 것들은 눈에 보이지 않기 때문에, 쉽게 휘발되는 경향이 있다. 이에 반해 내 눈에 보이는 물건을 정리하는 것은 아주 손쉽다. 따라서, 머리에 떠오른 생각 또한 시각화를 해야 한다.
 

 
 

생각정리 툴

 

생각을 정리하기 위한 툴로 아래와 같이 세가지 유형이 있다. 다른 두가지는 다소 낯선 형태이지만, 어렸을 적부터 익숙히 접한 마인드맵으로 먼저 생각을 발산해보는 건 어떨까?

 

012
마인드맵 - 로직트리 - 만다라트



생각정리 원리

 

생각은 보통 '우뇌로 발산하고 좌뇌로 수렴한다.' 는 원리로 정리되곤 한다. 아인슈타인 또한 "아이디어 쓰레기통이 필요" 하다고 했다. 


즉, 정갈하게 정리된 생각을 얻기 위해서는 우선 '발산' 과정을 겪어야 한다. 발산이라 함은 떠오르는 것을 마구 흩어 놓는 것이다. 그런 후에는 나름의 기준을 세우고 나열, 분류, 배열을 하여 체계화 시킨다. 여기서 중요한 점은 생각 정리를 통해 답을 얻으려고 조급히 마음 먹어서는 안된다. 일단 질문을 던지자. 육하원칙에 맞춰 질문을 스스로에게 하다 보면, 어느 새 자연스레 생각은 정리되어 있을 것이다.

 
 

데이터 분석 기초

 

데이터 분석에 대해 이해하기 위해서 사례를 중심으로 과정을 더듬어 보는 과정이 필요하다. 무턱대고 이론을 들이밀면 이해가 쉽지 않을 것이다.
따라서, 고객 데이터 분석이라는 특정 주제를 가지고 다뤄보려 한다.
 
 

고객 데이터 분석, 왜 해야될까?

 

온라인 환경에서는 고객이 눈에 보이지 않는다. '우리 서비스를 고객이 잘 사용하고 있나?' 에 대한 물음에 대한 답을 어떻게 얻을 수 있을까?



고객 데이터 분석을 한다는 것에 대해 자칭 사회생태학자인 Peter drucker 는 이와 같이 이야기 한다.
 

If you don't measure it, you can't manage it. 
If you can't manage it, you can't improve it.

 
 

해석하자면, '측정하지 않으면 관리할 수 없으며 관리할 수 없으면 개선시킬 수 없다.' 는 의미이다. 고객관리를 위해서 측정은 불가피하며, 따라서 데이터 분석의 필요성이 강조되는 부분이다.
 
그렇다면 회사에서 볼 수 있는 데이터, 어떤 종류일까?



먼저, 서비스 운영을 위한 모든 데이터, '서비스 데이터' 가 있다. 예를 들면, 결제 내역, 회원가입 정보, 서비스 신청 내역 등이 있을 수 있다. 서비스 데이터는 가입, 결제 등과 같은 서비스 운영을 위해 반드시 필요한 데이터이며, 서비스 주요 기능에 큰 영향을 미친다.

둘째로, 사용자들의 행동패턴을 확인하기 위해 별도로 저장하는 '사용자 행동 데이터' 가 있다. 예를 들면, 웹로드 데이터, 앱로그 데이터, 이벤트 데이터, 사용자 로그 데이터 등을 들 수 있다. 데이터 규모가 상대적으로 크고, 신뢰도가 낮은 특징이 있다. 누락, 중복 집계의 가능성이 있고 페이지뷰, 스크롤, 클릭 등에 의한 데이터 특성 때문이다.
 

사용자 행동 데이터 분석 기초

 

다시 돌아가, '우리 서비스를 고객이 잘 사용하고 있나?' 에 대한 질문의 답을 찾기 위한 여정으로 고객을 대면 관찰하거나, 고객 인터뷰, 사용자 행동 데이터 분석을 진행 할 수 있다.
 



그 중 데이터분석가가 주로 다루게 되는 '사용자 행동 데이터' 는 사용자들이 서비스를 사용하면서 남기는 행동데이터를 분석하게 된다. 적은 비용으로 언제든 많은 사람들을 분석할 수 있다는 장점이 있다. 하지만, 데이터 해석을 자의적으로 해야 한다는 점, 분석가 마다 다른 해석이 가능해 정확한 문제 파악에 어려움이 있을 수 있다. 아래는 사용자 행동 데이터 분석 시 주의 사항을 정리해 보았다.


 

가설 검증

 

가설 검증, 왜 필요할까? 

 

 

 
'모든 문제와 아이디어는 고객 검증 전까지는 가설일 뿐 !'

 

한 번 정한 가설을 믿고 나아가다 보면, 신속할 수는 있으나 목표와 다른 방향으로 나아갈 여지가 있다. 반면에, 여러 번의 가설 검증을 거치며 방향을 수정해가며 나아가다 보면 더딜 수는 있으나 목표에 수월히 도달할 수 있다. 
 

검증할 가설 결정

아무 가설 붙잡고 검증하는 것은 아니다. 가설 검증에도 절차가 있다. 우선, 모든 가설을 리스팅하여 펼쳐 놓는다. 그리고 긴급도와 중요도 등의 기준에 따라 우선순위를 설정한다. 그러고 나서야 검증할 가설을 선택하는 것이다.
 



지난번의 Design Sprint 프로젝트에서 AGILE 한 태도로 신속히 프로토타입을 제작해 고객 반응을 확인 한 것처럼 데이터 분석을 할 때도,
LEAN 모델을 활용해 Build - Measure - Learn 의 과정을 빠르게 반복하여 고객 반응으로 부터 점진적으로 발전시켜나가는 것이 이상적이다.
 
 
 

데이터와 데이터분석가

데이터란?

 
자, 데이터 분석과 가설 검증의 필요성에 대해서는 대략 정리가 된 느낌이다. 그렇다면 분석에 활용되는 '데이터'는 무엇일까?


분석에 활용되는 데이터에 한정해서 데이터란, 컴퓨터에서 '처리하는 문자, 숫자, 소리, 그림 형태로 된 자료'이다. 초기 데이터는 단순 사실로써 형태를 가진다. 이러한 데이터들이 정제와 가공의 과정을 거치며 '의미' 를 가지게 된다. 이후 감정, 흥미, 반응, 참여등의 반응을 통해 최종적인 '정보(info)' 가 만들어지는 것이다.
 

데이터 분석 프로세스

단순 사실들의 데이터를 통해 분석을 하려고 한다. 어떤 프로세스로 움직여야 할까?

 

 
ETL 은 '추출(Extract) + 변환(Transform) + 로드(Load)' 를 결합한 용어이다. 조직에서 데이터를 단일 데이터베이스, 저장소, 웨어하우스, 레이크에 결합하기 위해 일반적으로 허용되는 방법이라 볼 수 있다.
 
BI 는 Business Inteligence 로 비즈니스 데이터를 분석하고 실행 가능한 인사이트로 전환해 조직의 모든 사용자가 더 합리적인 의사결정을 내리도록 하는데 사용되는 프로세스와 툴이다.
 
 

데이터베이스

 

DB 라는 말은 의미는 정확히 모르지만 언뜻 들어 본 적이 있을 것이다. 그 DB 가 Database 의 줄임말이다.
 
그래서 데이터베이스가 뭔데?
 
데이터베이스는 엄청난 양의 데이터를 다룰 때, 정보를 일원화하여 처리를 효율적으로 수행하기 위해 서로 관련성을 가지면서 중복 없이 데이터의 집합을 유지하는 것을 일컫는다.
 
더 나아가, DBMS 는 DB 관리 시스템으로 대량의 데이터를 체계적으로 관리하는 역할을 한다. 아래는 DBMS 의 장,단점이다.
 

 

데이터베이스 계층구조

데이터 베이스의 계층구조는 BIT → BYTE → FIELD → RECORD → FILE → DATABASE 순으로 구분되어 있다.
바이트까지는 '10100001' 과 같은 형식이며 인간이 인식할 수 있는 수준은 아니다. 필드부터 인식 가능한 수준으로 형태가 만들어진다.
 

 

DB 추상화

데이터 ok, 데이터분석 ok, 데이터베이스.. '데이터분석을 하려면 DB 구조를 꼭 알아야 할까?' 라는 의문이 들 수 있다.
자동차 운전할 때, 자동차 설계를 다 알아야 하는 것이 아니듯, DB 구조 또한 필요한 부분만 인식하고 있으면 된다.
 
데이터베이스 구조는 크게 3단계로 구분된다. 그중 데이터 분석가는 외부수준까지만 접근하면 된다.
 

 

업무 이해 vs 업무 데이터 이해

 

마지막으로 실무에서 헷갈릴 수 있는 상황이다. '업무 이해' 는 것은 뭘까? 말 그대로 업무 처리법, 공정 등 프로세스를 중심으로 하는 이해를 말한다. 그렇다면, '업무 데이터 이해' 는 뭘까? 이 때는 데이터의 발생, 흐름, 선행관계 등 데이터 측면에서 비즈니스 과정을 조명하는 것이다. 큰 틀에서 비즈니스를 이해한다는 것은 비슷해 보일 수 있으나, 프로세스 중심이냐 혹은 데이터 중심이냐의 관점 차이 또한 극명히 나뉘어 진다.
 
 

Reflection
 

멀게만 느껴지던 데이터, 데이터 분석, 가설검증, 데이터베이스에 대해 조금의 감이 오는것 같기도 하다. 앞으로 계속 반복해서 노출되다 보면 언젠가 내 몸에 벤 듯 자연스러워지리라 믿는다. 그리고, 실무적 관점에서 데이터를 어떻게 바라봐야 하는지에 대한 관점도 곱씹어 봐야 할 부분이다. 프로젝트를 하게 되거나 개인적인 스터디를 하게 될 때도 늘 Why? 와 같은 의문을 품고 본질에 대한 digging 이 가능해지도록 조금씩 연습을 해봐야겠다.