목록크롤링 (6)
GOOD4ME

지표 데이터 크롤링 기술이 확정되었고, 확정한 기술을 통해 크롤링 테스트를 완료하였다. 이번 테스트 및 작업에 대해 설명하기 전, 지표데이터 수집의 대상이 되는 사이트를 변경했음을 알린다. 야후파이낸스는 필요한 지표들이 여러 페이지(탭)에 나뉘어져있었고, 이번에 선정한 사이트는 필요한 지표들이 하나의 표 안에 통합되어있어 더 신속하고 효율적인 크롤링을 할 수 있었다. 크롤링 기술 변경 selenium 👉 BeautifulSoup 지난 포스팅에서 언급했듯이 웹에서 입력자동화가 필요없는 이상, BeautifulSoup를 사용하는 것이 크롤링 속도가 더 빠르기 때문에 변경하였다. 사용한 구문 설명 # request.get 하위 함수 raise_for_status() """ 요청/응답 코드가 200이 아니면 예..

실시간 주가 크롤링을 진행하며 직면한 문제 굉장히 느린 크롤링 처리 속도 병렬처리 시, 메모리 occupacy 급격히 증가 이 원인은 "Selenium" 라이브러리를 사용해서 발생한 것이다. Selenium을 사용한 이유? 이 프로젝트의 전신인 "펀드 지표 분석 플랫폼 구축" 당시, "Selenium"을 사용하여 업무 자동화 프로그램을 개발했기 때문에, 익숙했던 "Selenium"을 이번 프로젝트에서도 사용한 것이다. 나의 고질적인 문제인 "익숙한" 것을 사용한 것이 이번 프로젝트 진행의 큰 걸림돌이었던 것이다. 그래서 어떻게 할 것인가? 다행히 "Selenium" 말고도, 석사 시절 자연어 처리를 위해 크롤링할 당시, "BeautifulSoup"를 사용했던 경험이 있었다. "BeautifulSoup"는..

InfluxDB는 무엇인가? (공식 문서 참고) InfluxDB는 어떤 경우에 사용해야하는가? (BEST) IoT 센서, 웹 크롤링 등에서 주기(초/분)마다 데이터가 수집되는 경우 (NOT RECOMMEND) 기 적재된 시계열 데이터(파일 및 테이블 형태)를 처리하여 다시 적재하려는 경우 InfluxDB 사용하기에 적합한 업종 및 데이터는 무엇인가? 시계열 데이터 적재가 필요한 곳 (ex. 제조업, 금융업 등) InfluxDB는 왜 사용하는가? 시계열 데이터를 위해 특별히 제작되었기 때문 RDB는 시계열 워크로드에 최적화되어있지 않기 때문 방대한 시계열 데이터를 저장할 수 있기 때문 실시간 분석을 신속하게 수행할 수 있기 때문

얼마전 'user-agent' 옵션에서 chrome 버전을 맞춰주지 않아, 제대로 크롤링되지 않는 에러에 대해 포스팅했었다. 금일, 또다시 이상한 에러에 직면하게 되었다. 이번엔 크롤링은 되긴하지만, 원하는 클래스 내용 전부를 크롤링하지 못하는 현상을 발견하였다😂😂🤣😂🤣🤣 문제 파악 아니 왜 또 이런 이상한 에러 때문에 금같은 시간을 버리게 하시나요 지저스;;;😣😣 크롤링하려는 부분의 클래스 및 ID가 제대로 맞춰져있는지 확인해보았다. 오..놀랍게도 잘 맞춰져있었다. 그래서 혹시나하고 '--headless' 옵션을 주석처리한 후, 크롤링 작업을 진행했지만, 아무런 효과가 없었다. 문제 해결 이번에는 구글링해봐도 원하는 답변이 나오지 않았다. '--headless' 옵션을 주석처리한 후, 유심히 지켜보니,..