[Hadoop] 하둡이란 (개요)


- 하둡은 빅데이터라는 어마어마한 도전을 위해 만들어졌다. 하둡은 많은 개발자의 말에 따르면 '신뢰할수 있고, 확장 있으며, 광범위한 컴퓨터 사용을 가능하게 해주는 오픈 소스 소프트웨어 개발하는 프로젝트'이다.

- 하둡은 다수의 컴퓨터 노드들이 거대한 시스템으로 병렬처리 할 수 있는 클러스터 컴퓨팅이다. 하둡 클러스터는 하둡이 실행되는 머신들과 그 머신이 데이터를 저장하고 프로세싱하도록 하는 운영 시스템인 데몬, 소프트웨어 프로세스들로 이뤄져있다. (HDFS + YARN + Hadoop Echo System)


- 하둡의 특징
  1. 대용량 데이터 처리
    • 하둡은 페타바이트 또는 엑사바이트 데이터와 같이 매우 데이터를 다루기 위해 설계 되었다.
  2. 장애 허용
    • 하둡은 하드웨어가 장애가 발생할 있다는 전제로 모든 것이 설계됐다. 하둡은 다수의 서버가 동시에 일을 처리하는데 이중에 하나의 서버가 고장이나도 작업을 이어서 진행할 있다.
  3. 높은 장애 대응력데이터의 스트리밍 액세스
    • 전통적인 DB 배치 프로세싱에 적장하다기보다는 데이터에 빠르게 액세스 있도록 만들어졌다. 하지만, 하둡은 수백 개의 페이지에 목차를 달거나 데이터 세트에 스트리밍 액세스하는 것과 같은 배치 프로세싱을 위해 고안됐다.
    • 배치 프로세싱이란, 쉽게 말해 일괄 처리이다. 일정 기간이나 일정 량의 데이터를 모아 한꺼번에 처리하는 것을 말한다.
  4. 간단한 데이터 일관성 모델
    • 하둡 데이터 파일은 WORM 모델 (write-once-read-many access model, 한번 쓰고 많이 읽는 데이터 모델) 사용한다.
  5. 데이터 지역성
    • 네트워크를 통해 데이터를 이동시켜 프로세싱시키던 방식과 달리 저장된 곳에서 데이터를 프로세싱하는 방식을 뜻한다기존 방식은 네트워크나 대역폭의 병목 현상으로 인해 훨씬  속도가 느린 경향이 있다하지만 하둡은 HDFS 파일시스템으로 YARN 사용해 MR(Map Reduce) 프로세싱을 클러스터의 노드로 이동한다.

출처 : 빅데이터 전문가의 하둡 관리 - 저 : 샘 R. 알라파티, 역 : 안진섭 - 성안당


댓글

가장 많이 본 글