Small Steps Every Day

매일 천천히 조금씩 앞으로 나아가다.

2025/01 16

[성동3기 전Z전능 데이터 분석가] DAY 25 _ 파이썬 실무 프로젝트_뉴스 데이터 전처리 / 번역, 감성분석 _ Vader/FinBERT

프로젝트 발표 시 고려사항과정보다는 목적과 결과를 중심으로 이야기 (10장 내외)분석을 나열하지 말고, 하나의 이야기로 전달문제제기, 분석과정, 결과도출, 해결책 제시의 흐름청중에게 필요한 정보 제공(ex 도메인 지식)기타 노력을 보여주고 싶다면 Appendix 에 넣어두기데이터, 코드 출처 꼭 남기기 To Do데이터 전처리 (한👉영 번역)뉴스 기사 감성분석주식 + 뉴스 데이터 결합가설 검증 계획PPT 역할 분배 데이터 전처리 _ 번역 전일 뉴스 데이터 수집이 완료된 후, 통합하여 전처리를 하니 총 약 7만개 정도였다. 예상보다 많이 수집되어 놀라웠다. 하지만, 아직 전처리는 끝나지 않았다. 감성분석을 하기 위해 뉴스 Summary 열의 내용을 영문으로 통일시켜야 했다. 영문으로 번역하는 코드를 GPT..

[성동3기 전Z전능 데이터 분석가] DAY 24 _ 파이썬 실무 프로젝트_데이터 수집_네이버 뉴스 데이터 크롤링, 웹스크래핑

데이터 수집 어제 +1 을 추가함으로 스크래핑 코드는 완성이 된 줄로만 알고 해맑게 아침을 맞이 했다. 하지만, 교육기관에 도착하자마자 팀원이 달려와 “문제가 생겼어요!” 라고 하자  잠깐 눈 앞이 깜깜해졌다.코드 새로 짜야하나..?야후 뉴스 스크래핑으로는 도저히 6개월치 데이터를 당장 오전 중 받아올 대책이 나오지 않았다.다시 네이버 뉴스로..원래 텍스트 감성분석을 진행할 계획이었기에 정확도를 위해 애초부터 영문 뉴스로 크롤링할 생각이었다. 하지만 분량에 대한 한계 때문에 이전에 만들어 놓은 네이버 뉴스 스크래핑으로 진행해야겠다는 판단을 했다. 결과물에 영문과 국문이 혼합되어 한 번 더 한영 번역을 해야했지만, 당장은 해당 방안이 제일 빠른 길이라 생각했다.6개월치를 어떻게..?아무래도 6개월치를 한 ..

[성동3기 전Z전능 데이터 분석가] DAY 23 _ 파이썬 실무 프로젝트_데이터 수집_주가, 야후 뉴스 기사 크롤링

Daily Scrum 날마다 하는 짧은 회의를 뜻함 (매일 현재 상태를 업데이트하고 조율하는 것)규칙지난 Daily Scrum 부터 지금까지 내가 완수한 것 공유다음 Daily Scrum 까지 내가 하기로 한 것 공유현재 장애가 되고 있는 것(곤란하고 어려운 것) 공유 (컨디션, 면접 등) LLM 모음 대 AI 시대가 되면서, LLM을 잘 사용하는 것도 하나의 역량이 되는 것 같다. 단 학습자의 입장에서는 AI 도움을 받되, 직접 코드를 작성해보며 의미를 생각해보는 과정이 필요하다.- 범용적으로 쓰기 좋은 https://chatgpt.com/- 검색에 강점이 있는 https://www.perplexity.ai/- 코딩을 잘하는 https://claude.ai/- 한국어 트렌드가 좋은 + 기타 기능들이 있..

[성동3기 전Z전능 데이터 분석가] DAY 22 _ 파이썬 실무 프로젝트 _ 팀빌딩 /문제정의

첫 파이썬 프로젝트에서 중요한 점주제 선정보다는 문제정의, 기여한 부분이 더 중요통계 유의검정은 가능하면 하되, 어렵다면 처음에는 넘어가도 괜찮음데이터 수집과정을 직접 경험해보는 것이 좋음스프린트 정신으로 '완료주의'에 집중데이터양은 500 rows 이상 정도면 괜찮음 → 데이터 양보단 질개인 당 가설 3개 검증을 목표로 삼기 데이터 분석가란? 데이터를 분석 & 정리하여, 비즈니스적인 결정을 할 때 도움을 주는 데이터 분석 보고서를 만드는 역할이다. 또는 데이터 기반으로 어떤 Action 을 해야할지 제안할 수 있는 사람이다. = 프로젝트를 통해서 만든 포트폴리오에서 보여줘야 하는 역량 !  이번 프로젝트의 결과물? 필요 역량데이터를 조회, 분석하는 스킬(파이썬)실제 데이터를 분석해서 나온 결과가 반영되..

[성동3기 전Z전능 데이터 분석가] DAY 21 _ 파이썬 교육 _ 데이터 시각화(Seaborn, matplotlib), 데이터분석 실습

오전그래프 만들기  산점도(scatter plot)  혼자서 해보기  평균 막대그래프  빈도 막대그래프  혼자서 해보기  선 그래프 columnsDtypedateobjectdate2datetime64 📌 date 열의 Dtype이 'Object' 이기 때문에 에러가 발생하는 것이다.  혼자서 해보기  상자 그림(box plot)  혼자서 해보기  Seaborn 더 알아보기seaborn 차트 시트DataCamp seaborn cheat sheet:http://bit.ly/easypy_86seaborn 으로 만든 다양한 그래프와 코드들seaborn Example gallery:http://bit.ly/easypy_87The Python Graph Gallery - Seaborn:http://bit.ly/e..

[성동3기 전Z전능 데이터 분석가] DAY 20 _ 파이썬 교육 _ 데이터 정제 (결측치, 이상치, 극단치)

데이터 정제결측치 정제  결측치 확인하기 pd.isna( )  결측치 제거하기 df.dropna(subset = [ ])  결측치 대체하기  혼자서 해보기  이상치 정제  존재할 수 없는 값 처리  이상치 확인  결측 처리  결측치 제거 후 분석   📌 np.where( ) : 문자와 NaN 함께 반환은 불가하다.  📌 문자와 NaN 을 함께 표시하고 싶을 때 아래와 같은 순서로 부여한다.결측치로 만들고 싶은 값에 임의 문자 부여df.replace( ) 를 이용해 결측치로 만들고 싶은 문자 np.nan 로 변환  극단치(outlier)  Box plot 대표적으로 하위 25%, 75% 간 차이인 IQR(사분위범위) 값을 기준으로 상한, 하한값을 통해 극단치 경계값을 확인하여 그 값을 벗어나는 데이터들..

[성동3기 전Z전능 데이터 분석가] DAY 19 _ 파이썬 교육 _ 데이터 전처리(2) (변수 추출, 정렬, 파생변수 추가, lambda, 데이터 요약, 데이터

📌 Colab 의 경우 12 시간이 지나면 import, 파일 등은 모두 초기화 되기 때문에 다시 설정해줘야 한다.  변수 추출하기  여러 변수 추출하기  📌 Series vs DataFrame변수가 2개 이상일 때는, DataFrame 으로 추출해줘야 한다.  변수 제거하기 📌 변수 제거하더라도 원본 데이터는 유지된다.  pandas 함수 조합하기  연습문제  순서대로 정렬하기 df.sort_values( )  연습문제  파생변수 추가하기 df.assign( )📌 df.assign( ) 은 파생변수 추가해도 원본 데이터는 변화 없다.# 파생변수 추가하는 다른 방법# 원본 데이터 자체가 변함df['var_mean'] = (df['var1'] + df['var2']) / 2  [성동3기 전Z전능 데..

[성동3기 전Z전능 데이터 분석가] DAY 18 _ 파이썬 교육 _ 데이터 분석 기초 (데이터 파악, 파생 변수) & 데이터 전처리(1) (변수 추출, 가공)

데이터 분석 기초데이터 파악하기  Mpg 데이터 파악하기  변수명 바꾸기 ❓ 데이터 프레임을 복사 할 때 df.copy( ) 를 사용하는 이유df_new = df_raw 와 같이 작성하면 df_new 와 df_raw 는 이름만 다를 뿐 한 몸처럼 항상 같은 값 갖게 됨즉 어느 한쪽을 수정하면 다른 한쪽도 수정따라서 복사본을 수정해도 원본은 영향받지 않도록 df.copy( ) 사용   연습문제  파생변수 (derived variable)  조건문을 활용해 파생변수 만들기  중첩 조건문 활용하기  목록에 해당하는 행으로 변수 만들기  연습문제 ❓ ratio 값이 계산값이 아닌, Axes(0.125,0.11;0.775x0.77) 와 같이 나온 이유는 뭘까midwest['ratio'] = (midwest['as..

[성동3기 전Z전능 데이터 분석가] DAY 17 _ 파이썬 교육 _ 백준(Backjoon), 함수(패키지), 외부 데이터 수집 및 분석

Backjoon - 코딩 문제 풀이  함수  패키지 이해하기  DataFrame  연습문제  외부데이터 이용하기  데이터 분석하기  Reflection  오전시간동안은 백준 홈페이지 내 다양한 종류의 코딩 문제를 개별적으로 풀어보는 시간을 가졌다. 어제 예상했던 대로 출력 내용이 조금씩 복잡해질 수록 시간도 오래걸리고 디버깅하는 과정에서 머릿속은 더 복잡해져갔다. 하지만, 몇 번의 시도 끝에 '정답!' 이라는 결과를 마주하면 약간의 짜릿함과 함께 소소한 기쁨을 느낄 수 있었다. 특히 숫자 2개를 한 줄에 나란히 한 칸 띄어서 쓰기 위한 코드로 'map(int, input().split())' 를 알게 되었는데, 거의 한 번에 암기가 된 것이 신기했다. 아마 해당 코드를 알기 전 골머리를 한창 앓으며 고민..

[성동3기 전Z전능 데이터 분석가] DAY 16 _ 파이썬 교육 _ 변수 유형, 자료 입출력, 조건문, 반복문

List  연습문제  List Method  연습문제  조건문  연습문제  반복문  연습문제  반복문 활용  연습문제  Reflection 오늘은 머리가 살짝 지끈거린다. 구문 파트 코딩을 위해 사전에 예상되는 결과를 상상하는 과정에서 그림이 잘 그려지지 않는 경향이 있었다. 일단 while, for 문 자체가 익숙하지 않은데 원인이 있다. 익숙해지려면 백준 사이트를 통해 종종 간단한 퀴즈 풀이를 병행해줘야 겠다. 멘토님의 도움으로 리본 만들기와 구구단은 재미있게 코딩할 수 있었다. 혼자서 퀴즈를 풀 때는 얼마나 답답하고 오래 걸릴 지 뻔하 보이지만, 고민의 과정 또한 배움이라 생각해야겠다. 특히 for 문은 자주 쓰이는 구문이기 때문에 가장 우선순위에 두고 체화가 될 때까지 반복, 반복, 반복하자! [..