Small Steps Every Day

매일 천천히 조금씩 앞으로 나아가다.

2025/02 19

[성동3기 전Z전능 데이터 분석가] DAY 44~45 _ SQL프로젝트 _ EDA / 2차 가설 설정

EDA (1) _ 판매자 성과 분석 문제정의: Olist의 셀러(기존+신규)와 소비자를 타겟으로 데이터 분석하여 매출 증대 전략을 도출 매출 상위 10% 판매자 vs. 하위 10% 판매자의 차이 분석 기초 탐색 작업을 위해, 각자 분석할 내용을 분담했고 난 판매자의 성과를 분석을 담당했다. 매출을 중심으로 다루기 때문에 아래와 같이 매출의 기준을 잡고 시작했다. 셀러별 총 매출, 주문 건수, 리뷰 점수, 배송료 차이 분석 위 집계 데이터를 통해, 상위 10% 판매자의 평균 매출, 오더 개수, 리뷰 점수, 평균 배송비 모두 하위 10% 판매자보다 높다는 것을 확인할 수 있었다. 더 나아가, 상위 10% 판매자가 상대적으로 고가의 고품질 제품을 취급할 가능성이 존재한다는 추론도 가능하다. 높은 생존율을..

[성동3기 전Z전능 데이터 분석가] DAY 43 _ SQL프로젝트 _ 데이터 탐색 / 1차 가설 설정

데이터 탐색 각 12개 테이블 내 열들에 대해 뜯어보며, 필요 없는 열은 걸러내고 헷갈리는 열에 대한 이해를 함께 맞춰갔다. 또한, 도중에 떠오르는 아이디어나 의문점에 대해 마음껏 발산하며 분석 목표의 방향성에 대해 서서히 좁혀나가는 과정을 거쳤다.   그래서 어떤 것에 대해 분석할 건데? 팀원이 모두 데이터셋에 대한 이해도를 끌어올렸다. 그럼 이제 어떤 것을 분석할 건지에 대해 논의를 해야할 단계가 다가왔다. 개인적으로는 가설을 설정하기 전에 가지고 있는 데이터셋으로 대략적인 EDA 를 진행한 후 가설을 설정해야 효율적이지 않을까? 라는 생각이 들었다. 말로 설명하는데 한계를 느껴서 (말하고자 하는 바가 정확히 전달되지 않는 느낌) Notion 에 전하고자 하는 부분을 글로 정리하였다. 그렇게, 'Ol..

[성동3기 전Z전능 데이터 분석가] DAY 42 _ SQL프로젝트 _ 팀빌딩 / 주제선정 / 문제정의 / 데이터 탐색

사용 데이터셋 이미 데이터 분석 프로젝트로 많이 사용된 브라질의 Olist 데이터셋을 선정했다. 많이 사용되었다는 것은 그 만큼 유용한 데이터가 포함되어있다는 것으로 해석을 했다. 그리고, 이커머스 시장은 복잡 다변하기 때문에 명확한 목적을 갖고 주제를 깊게 파고들면 누구나 할 법한 지루한 프로젝트 내용을 피할 수 있을 것이라 생각했다. 따라서 주제 선정에 상당히 시간을 많이 할애했다.  주제 선정 주제 선정을 하기 전, 도메인에 대한 지식을 쌓기 위해 여러가지 서치를 해보았다.브라질의 이커머스 시장 특성Olist 회사 개요 및 비즈니스 구조하이브리드 이커머스 특징위 내용을 기반으로 도출할 만한 인사이트팀원분들이 각자 서치한 내용을 통합하여 서로 공유하고, 이해도를 함께 높이는 시간을 가졌다. 페르소나를..

[성동3기 전Z전능 데이터 분석가] DAY 41 _ SQL _ 윈도우 함수 (ROW_NUMBER(), LAG(), RANK(), DENSE_RANK(), LEAD() / VIEW / 데이터 추출

Window Function (윈도우 함수) 행과 행 간의 관계를 쉽게 적용하기 위해 만든 함수ex. RANK 를 사용해 순위를 매길 수 있음SyntaxRANK() OVER ([PARTITION BY 열명] ORDER BY 열명 [DESC]) AS RANKMYSQL 의 대표적인 윈도우 함수ROW_NUMBER() : 순위 매기기LAG() : 이전 행 값 참고하기RANK() : 공동 순위를 허용하는 순위 매기기DENSE_RANK() : 공동 순위 후 순차적 순위LEAD() : 다음 행 값 참조하기  ROW_NUMBER() 각 행에 고유한 순번을 할당하는 윈도우 함수 → 정렬된 행 순서대로 1부터 시작하는 숫자를 부여SyntaxROW_NUMBER() OVER ([PARTITION BY 열명] ORDER BY ..

[성동3기 전Z전능 데이터 분석가] DAY 40 _ SQL _ 서브쿼리 (Subquery), IN, JOIN (INNER, OUTER, LEFT, RIGHT)

서브쿼리 서브 쿼리 뒤에는 반드시 별칭(alias)을 가져야 함SELECT 명령이 어떤 값을 반환하는 지 중요SELECT 구에서 사용하기SELECT (SELECT COUNT(*) FROM Sample51) AS sql1, (SELECT COUNT(*) FROM Sample54) AS sql2;  SET 구에서 서브쿼리 사용하기UPDATE 의 SET구에서도 사용 가능# ERROR ver.UPDATE Sample54 SET a=(SELECT MAX(a) FROM Sample54);# Revised ver.UPDATE Sample54 SET a=(SELECT max_valFROM (SELECT MAX(a) AS max_val FROM Sample54) AS temp);  FROM 구에서 서브쿼리 사용하기..

[성동3기 전Z전능 데이터 분석가] DAY 39 _ SQL _ 날짜 연산 / CASE 문 / 데이터 추가,수정,삭제(INSERT, UPDATE, DELETE) / 집계함수(COUNT, SUM, AVG, MIN, MAX) / GROUP BY / HAVING / 서브쿼리(1)

날짜 연산 _ CURRENT_TIMESTAMP & DATEDIFF 날짜는 Date, 시간은 Time, 날짜와 시간은 Datetime 형으로 세분화 가능날짜나 시간 데이터는 사칙 연산 가능SyntaxSELECT CURRENT_TIMESTAMP; → 시스템 날짜를 출력하기 때문에 FROM 생략 가능 덧셈과 뺄셈 연산Syntax (덧셈)SELECT CURRENT_DATE + INTERVAL 숫자 DAY;SELECT ADD_DATE(NOW(), INTERVAL 1 DAY)다양한 연산도 가능SELECT DATE_ADD(NOW(), INTERVAL 1 SECOND);SELECT DATE_ADD(NOW(), INTERVAL 1 MINUTE);SELECT DATE_ADD(NOW(), INTERVAL 1 HOUR);SE..

[성동3기 전Z전능 데이터 분석가] DAY 38 _ SQL _ NOT, LIKE, ORDER BY, LIMIT, OFFSET, 연산자

NOT 연산자 오른쪽에 지정한 조건식의 반대값을 반환 (단항 연산자)SELECT * FROM sample24 WHERE NOT (a0 OR b0); 엔티티 관계도 테이블 간 관계를 알아볼 수 있는 기능이며, 전처리 전 데이터를 이해하는 데 도움이 된다.테이블 우클릭 → '다이어그램 보기' 클릭 실습해보기 # Q1. Employee 테이블을 모두 출력해보기 SELECT * FROM Employee;# Q2. Employee 테이블에서 reportsto 가 null 아닌 사람을 출력해보기 SELECT * FROM Employee WHERE ReportsTo IS NOT NULL;# Q3. Employee 테이블에서 Title 이 IT Staff 인 사람만 출력해보기 SELECT * FROM Employe..

[성동3기 전Z전능 데이터 분석가] DAY 37 _ SQL _ DB/DBMS, SQL 설치, CRUD, SELECT, WHERE, 조건문

오전데이터 분석가란?데이터를 분석 & 정리하여, 비즈니스적인 결정을 할 때 도움을 주는 데이터 분석 보고서를 만드는 역할= 프로젝트를 통해서 만든 포트폴리오에서 보여줘야 하는 역량 !  데이터베이스 조직체의 응용 시스템들이 공유해서 사용하는 운영 데이터들이 구조적으로 통합된 모임이다. 데이터 베이스의 구조는 사용되는 데이터 모델에 의해 결정된다. 데이터베이스 스키마전체적인 데이터베이스 구조를 뜻하며, 자주 변경되지 않음데이터베이스 열의 모든 가능한 속성을 미리 정의내포(intension) 이라고 부름DEPARTMENT(DEPTNO, DEPTNAME, FLOOR)EMPLOYEE(EMPNO, EMPNAME, TITLE, DNO, SALARY) 데이터베이스 상태특정 시점의 데이터베이스의 내용을 의미하며, 시간..

[성동3기 전Z전능 데이터 분석가] DAY 35 _ 그로스해킹 / AARRR

그로스해킹이란 ? 핵심 지표를 찾고, 그 지표를 성장시키는 방법을 찾는 활동지표를 통해우리 상황을 정확히 이해할 수 있고목표를 명확히 할 수 있고의사결정을 내리는 데 참고할 수 있는 명확한 기준을 세울 수 있음  그로스해킹의 특징 제품 개선에 초점을 둠"작고 빠르게 실험하기"소비자와 시장의 실제 반응에 따라 신속한 의사결정이 필요함따라서 완별하지 않아도 핵심가치가 구현된 파일럿 테스트 제품으로 고객 반응을 체크완벽한 제품에 도달할 때까지 개선하는 방식데이터를 바탕으로 의사결정처음 시도해보는 마케팅 활동 중 기대 매출 효과가 예측이 안되는 경우,고객이 전달하는 데이터가 아닌 단순 직감으로 의사결정을 하는 경우 존재수집하는 고객의 데이터를 바탕으로 고객 활성화와 유지 단계의 영역을 개선하는 데 집중  그로스..

[성동3기 전Z전능 데이터 분석가] DAY 34 _ GA4 _ 이벤트 설계 / 데이터 시각화 (GA4, Looker Studio)

이벤트를 설계하는 데 UTM 에 대한 고려가 필요하다. 참고로, UTM 은 GA 에서 유입경로를 알아보기 위한 URL 의 파라미터 값이다. UTM 생성기 UTM code 를 직접 생성하기 위해서는 아래 예시 표처럼, 엑셀 시트에 UTM 코드와 관련된 정보들을 정리하여 마지막 열에 엑셀함수를 활용해 랜딩 페이지에 UTM 코드를 심어줄 수 있다.생성일담당자메모랜딩URL소스(utm_source)매체(utm_medium)캠페인(utm_campaign)랜딩페이지 URL + UTM 코드2/12min카톡 채널 메세지linkkakaopushs/s_신상_프로모션🎉  이벤트 설계 실습 📌 이벤트 정의서를 활용해 서비스의 측정하고자 하는 이벤트를 정의해보기서비스 목표 : 강의 구매 완료   GA4_데이터 시각화 GA4 ..