목록개발.오류.정리/Spark (5)
GOOD4ME

지난 포스팅에서 Spark Cluster와 MSSQL을 통해 데이터를 조회하는 것을 성공했다. 이번 포스팅의 목표는 실제 대용량 데이터를 조회하고 데이터를 분석, 시각화 그리고 AI 모델에 사용할 수 있도록 전처리하고 간단하게 데이터를 집계하는 것이다. 사전 준비 작업 우선 지난 포스팅에 사용했던 환경을 그대로 사용하되 MSSQL DB는 실제 사용하는 대용량 데이터를 적재하고 있는 것으로 변경한다. 지난 포스팅에 사용했던 환경은 아래 접은 글을 참고하면 된다. 더보기 Docker 기반의 Spark Cluster Container가 구성되어야하고 데이터를 처리할 Container가 추가로 구성되면 더 좋다. 필자는 Ubuntu 이미지 위에 직접 Apache Spark를 설치하여 Vanilla 개념의 Spa..

구축중인 빅데이터 플랫폼은 MSSQL 데이터베이스 내의 테이블을 Sqoop을 사용하여 HDFS로 옮긴 후, 옮긴 디렉터리를 타겟으로 하여 Hive 테이블을 생성하여 데이터를 조회 및 처리하였다. 그러나 상기의 방법 과정은 MSSQL -> Sqoop -> HDFS & Hive 이며 그 과정에서 많은 자원을 소모한다는 단점이 존재했다. 이번 주제에서는 MSSQL -> Spark -> HDFS | Hive 로 Sqoop 대신 Spark를 사용하는 것이며 Spark를 통해 여러 전처리를 적용한 후, HDFS에 parquet 형태로 저장하는 것을 목표로 한다. 사전 준비 작업 Docker 기반의 Spark Cluster Container가 구성되어야하고 데이터를 처리할 Container가 추가로 구성되면 더 좋다..

지난 포스팅에 이어 단일 Spark를 사용한 실시간 데이터 처리에서 Spark Cluster를 사용한 실시간 데이터 처리에 대한 글을 포스팅하겠다. Docker 기반의 Spark Cluster Container(4 개), Kafka Cluster Container(3 개), MSSQL Container(1 개) 를 사용하여 실험을 진행했다. Spark Cluster Container는 Master Container 1개와 Worker Container 3개로 구성되어져있다. 사전 준비 작업 Docker 기반의 Spark Cluster Container가 구성되어야한다. 필자는 Ubuntu 이미지 위에 직접 Apache Spark를 설치하여 Vanilla 개념의 Spark Cluster Container를..

저번 Kafka Connect와 MSSQL 연동글에 이어 이번엔 Spark에 연동해보려고 한다. Docker 기반의 Spark Container(1 개), Kafka Cluster Container(3 개), MSSQL Container(1 개) 를 사용하여 실험을 진행했다. 사전 준비 작업 Kafka 컨테이너에 Spark Streaming 관련 jar파일을 추가해야한다. jar파일 추가를 위해 Spark 버전과 Kafka의 버전을 알아야하고 각각의 버전 확인 방법은 하단과 같다. # Spark version check $ spark-submit --version Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,..