데이터 탐색
각 12개 테이블 내 열들에 대해 뜯어보며, 필요 없는 열은 걸러내고 헷갈리는 열에 대한 이해를 함께 맞춰갔다. 또한, 도중에 떠오르는 아이디어나 의문점에 대해 마음껏 발산하며 분석 목표의 방향성에 대해 서서히 좁혀나가는 과정을 거쳤다.
그래서 어떤 것에 대해 분석할 건데?
팀원이 모두 데이터셋에 대한 이해도를 끌어올렸다. 그럼 이제 어떤 것을 분석할 건지에 대해 논의를 해야할 단계가 다가왔다. 개인적으로는 가설을 설정하기 전에 가지고 있는 데이터셋으로 대략적인 EDA 를 진행한 후 가설을 설정해야 효율적이지 않을까? 라는 생각이 들었다. 말로 설명하는데 한계를 느껴서 (말하고자 하는 바가 정확히 전달되지 않는 느낌) Notion 에 전하고자 하는 부분을 글로 정리하였다. 그렇게, 'Olist 의 비즈니스 현황 파악 → 데이터 특징 파악(EDA) → 가설 설정 → 검증' 의 과정으로 진행되는 것으로 다시 한 번 합의할 수 있었다.
1차 가설 설정
그래서 각자 가설을 설정하는 시간을 가지기로 했을 때, SQL 을 활용해 이리 저리 데이터를 뜯어보며 알아가보기로 했다. 우선 처음으로 꽂혔던 주제는 '오더 현황' 에대한 내용이었다. 그 중에서도 오더 취소에 대해 알아보았다. 좌측 집계를 보면 전체 오더 대비 취소 비율이 적은 편이긴 했다. 그래도, 한 번 더 카테고리별로 취소현황을 뜯어보았다. 포르투갈어라 어떤 카테고리인지는 한 번에 보이지는 않지만, 확실히 특정 카테고리에서 취소율이 높았다. 이를 통해 두가지 의문점을 가질 수 있었다.
❓전체 오더 대비 적게 차지하는 취소건 보다는 취소하지 않은 건들에 대한 만족도를 더 높이는 게 매출증대에 효과적일까?
❓아니면, 취소율이 높은 특정 카테고리를 분석하여 취소율을 낮추는 것이 매출증대에 효과적일까?
16시즘 팀원과 함께 각자 설정한 가설들을 공유했다. 다들 상당한 수준의 가설을 가지고 오셔서 놀라웠다. 하지만, 구현이 가능한지 아직은 감이 오지 않았다. 그래도 일단 한번에 취합하여 분류를 해놓았다. 이제 내일부터 각자 담당한 파트의 EDA 를 진행한 후 2차적으로 가설을 다시 한 번 살펴볼 예정이다.
Reflection
오늘의 과정은 온라인으로 진행되었다. 그래서인지 서로 간 오해가 조금씩 생겼던 것 같다. 그래도 각자 의문이 드는 점을 그 때 그 때 확인하며, 함께 이해를 맞춰갔다. 파이썬 프로젝트 때는 각자 가설을 설정하여 바로 검증까지 했던 터라 이번 SQL 프로젝트도 동일하게 진행되는 줄 알았다. 그래서 위에 작성한 것처럼 가설 설정 전 EDA 가 필요하지 않겠냐는 제안을 드렸다. 그런데, 팀원분들께서 1차 가설설정 이후 EDA 를 하여 유의미한 가설을 걸러내고 검증을 하는 것으로 이야기가 된 줄 알았다고 하셔서 '아 내가 중간에 놓친 부분이 있었구나' 를 느꼈다. 말은 휘발되기 때문에 순간 집중을 놓치면 맥락을 놓쳐 헤멜 수 있다는 것을 배웠다. 앞으로 조금 더 집중하자..😓