데이터 수집
어제 +1 을 추가함으로 스크래핑 코드는 완성이 된 줄로만 알고 해맑게 아침을 맞이 했다. 하지만, 교육기관에 도착하자마자 팀원이 달려와 “문제가 생겼어요!” 라고 하자 잠깐 눈 앞이 깜깜해졌다.
코드 새로 짜야하나..?
야후 뉴스 스크래핑으로는 도저히 6개월치 데이터를 당장 오전 중 받아올 대책이 나오지 않았다.
다시 네이버 뉴스로..
원래 텍스트 감성분석을 진행할 계획이었기에 정확도를 위해 애초부터 영문 뉴스로 크롤링할 생각이었다. 하지만 분량에 대한 한계 때문에 이전에 만들어 놓은 네이버 뉴스 스크래핑으로 진행해야겠다는 판단을 했다. 결과물에 영문과 국문이 혼합되어 한 번 더 한영 번역을 해야했지만, 당장은 해당 방안이 제일 빠른 길이라 생각했다.
6개월치를 어떻게..?
아무래도 6개월치를 한 번에 크롤링할 수는 없는 노릇. 그렇다면 일주일, 한 달과 같이 기간을 끊어서 반복 요청을 해야했다. 그리고, 지속적인 네이버 서버 제한을 풀어줘야 하는 불편사항도 있었다.
드디어...! 수집 되는건가?
코드를 각종 ai 와 긴밀히 대화하며 적절히 수정하여 결국에 한 달 단위의 스크래핑을 성공해냈다..! 이제 원하는 기간을 반복 작업 하면 되는 줄로 알았다.
최근 1개월치 date 가 왜 공백...?
반복적으로 최근 1개월치 스크래핑 시 뉴스 발행날짜가 공백으로 나타나서 이상하다 싶었다. 그래서 직접 웹에 들어가 어떤 형식인지 확인했다. 놀랍게도 딱 최근 한 달간은 정형화된 연도.월.일 형식이 아니라 1일 전, 1주일 전... 이런 형식이었다. 다행히 원인을 발견했고, 대안으로 최근 한달치 데이터는 포기하고 그 전까지만 수집하기로 팀원 간 합의를 했다.
각종 이슈를 해결해가며, 하루를 모두 할애하여 각자 맡은 키워드에 대한 웹 스크래핑은 완료해냈다. 첫 데이터수집 경험이었는데, 난이도가 생각보다 높아서 상당히 애를 먹었다. 하지만, '무조건 되게 만들자' 는 마인드로 끈질기게 붙잡아 어려운 과정들을 돌파해낼 수 있었다. 앞으로 마주할 데이터 전처리, 뉴스 기사 감성분석 또한 지금까지의 마인드셋으로 완료해낼 수 있도록...화이팅하자.