Bigdata Eco - Spark
빅데이터는 수집, 정제, 적재, 분석, 시각화의 여러 단계를 거친다. 이 단계를 거치는 동안 여러가지 기술을 이용하여 처리되고, 이 기술들을 통들어 빅데이터 에코 시스템이라고 한다. Spark 인메모리 기반의 범용 데이터 처리 플랫폼이다. batch처리, 머신러닝, SQL 질의 처리, 스트리밍 데이터 처리, 그래프 라이브러리 처리와 같은 다양한 작업을 수용할 수 있도록 설계되어 있다. 2009년 버클리 대학의 AMPLab에서 시작됐으며, 현재 가장 빠르게 성장하고 있는 오픈소스 프로젝트 중 하나이다. spark는 매우 빠르다. Hadoop보다 100이상 빠르다. spark는 In-Memory에서 운영되기 때문이다. (Hadoop은 disk에서 data 처리가 되고 Spark는 메모리 위에서 처리된다. d..