[Hadoop] 하둡이란 (개요)
- 하둡은 빅데이터라는 어마어마한 도전을 위해 만들어졌다. 하둡은 많은 개발자의 말에 따르면 '신뢰할수 있고, 확장 할 수 있으며, 광범위한 컴퓨터 사용을 가능하게 해주는 오픈 소스 소프트웨어 개발하는 프로젝트'이다.
- 하둡의 특징
- 대용량 데이터 처리
- 하둡은 수 페타바이트 또는 엑사바이트 데이터와 같이 매우 큰 데이터를 다루기 위해 설계 되었다.
- 장애 허용
- 하둡은 하드웨어가 장애가 발생할 수 있다는 전제로 모든 것이 설계됐다. 하둡은 다수의 서버가 동시에 일을 처리하는데 이중에 하나의 서버가 고장이나도 작업을 이어서 진행할 수 있다.
- 높은 장애 대응력데이터의 스트리밍 액세스
- 전통적인 DB는 배치 프로세싱에 적장하다기보다는 데이터에 빠르게 액세스 할 수 있도록 만들어졌다. 하지만, 하둡은 수백 개의 웹 페이지에 목차를 달거나 데이터 세트에 스트리밍 액세스하는 것과 같은 배치 프로세싱을 위해 고안됐다.
- 배치 프로세싱이란, 쉽게 말해 일괄 처리이다. 일정 기간이나 일정 량의 데이터를 모아 한꺼번에 처리하는 것을 말한다.
- 간단한 데이터 일관성 모델
- 하둡 데이터 파일은 WORM 모델 (write-once-read-many access model, 한번 쓰고 많이 읽는 데이터 모델)을 사용한다.
- 데이터 지역성
- 네트워크를 통해 데이터를 이동시켜 프로세싱시키던 방식과 달리 저장된 곳에서 데이터를 프로세싱하는 방식을 뜻한다. 기존 방식은 네트워크나 대역폭의 병목 현상으로 인해 훨씬 더 속도가 느린 경향이 있다. 하지만 하둡은 HDFS 파일시스템으로 YARN을 사용해 MR(Map Reduce) 프로세싱을 클러스터의 노드로 이동한다.
출처 : 빅데이터 전문가의 하둡 관리 - 저 : 샘 R. 알라파티, 역 : 안진섭 - 성안당
댓글
댓글 쓰기