닫기
 
빅데이터 전문가의 하둡 관리
소비자가격 : 40,000↓
판매가격 : 36,000
적립금 :2,000
ISBN :978-89-315-5575-2
등록일자 :2018-11-01
출판사 :도서출판 성안당
저자 :샘 R. 알라파티 저/안진섭 역
분량 :824쪽
편집 :1도
판형 :4x6배 (190x260)
발행일 :2018년 11월 5일
구매수량 :
총 금액 :


책 소개


빅데이터의 숨겨진 가치를 끄집어내라!


속도, 신뢰성, 비용 절감으로 각광받는 하둡관리자의 필독서!




빅데이터 전문가의 하둡 관리

 

데이터 양이 많은 페이스북같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면? 데이터를 분산해서 효율적으로 처리해야 한다.

코끼리 모양의 아이콘으로 연상되는 아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)19966월 미국 델라웨어에서 설립된 아파치 HTTP 서버를 포함한 아파치 오픈 소스 소프트웨어 프로젝트를 지원하는 아파치 소프트웨어 재단(Apache Software Foundation, ASF)에서 개발해 아파치 하둡으로도 불린다. 빅데이터 시대에 속도와 신뢰성이 답보되면서 비용도 저렴한 삼박자의 효율적인 솔루션으로 각광받는 하둡은 2003, 2005년에 발표된 구글 분산 파일 시스템(GFS)과 맵리듀스((MapReduce)를 구현한 것으로 대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크를 말한다. 하둡은 빅데이터를 다루는 다양한 기업에서 도입하고 있는데 익스피디아, 호텔스닷컴, 테슬라, 국내 KT같은 기업 등이 하둡을 여러 분야에 도입하여 하둡 기반 플랫폼도 구축하고 있다.

‘Expert HADOOP Administration’ 원서 저자로 하둡 관리자로서의 기술적인 배경과 집필 경험이 풍부한 샘 R. 알라파티(Sam R. Alapati)는 하둡에 대한 큰 그림을 볼 수 있도록 해준다. 하둡 생태계의 하둡 컴포넌트들인 아브로, 플룸, HBase, HCatalog, 하이브, , 카프카, 머하웃, 우지, 피그, 스쿱, 스톰, 테즈 등은 하나하나가 책 한 권으로도 나와 있을 만큼 큰 주제이지만 이 책에서는 이런 솔루션들을 빠짐없이 소개하고 언급한다. 저자는 하둡 생태계에서 크게 얀과 하둡 분산 파일 시스템(HDFS)을 배치하면서 하둡으로 배치, 인터랙티브, 실시간 데이터 접근을 위해서는 스크립트로는 피그, SQL로는 하이브, 스파크, 자바 스칼라로는 캐스케이딩, 스트림으로는 스파크 스트리밍, 인메모리로는 스파크, 검색으로는 솔라(Solr), NoSQL로는 HBase와 어큐뮬로, 머신러닝으로는 스파크 MR과 스파크 R 등을 사용한다며 하둡의 핵심 컴포넌트와 툴을 한눈에 보여준다. 또 하둡을 관리하기 위해 알아야 하는 것, 하둡 12의 차이점을 다룸으로써 하둡 3 시대에도 대비할 수 있도록 하며, 하둡 관리의 핵심 영역까지 소개한다.

역자 안진섭씨는 역시 빅데이터와 관련된 기업인 SAP 코리아에서 데이터베이스 엔진을 개발하면서 하둡에 대한 경험도 풍부한 프로그래머로서 이 책을 상세하고 이해할 수 있는 수준까지 번역하고자 애썼다.

이 책은 크게 521장으로 구성되어 있다. 1부에서는 하둡의 아키텍처와 하둡 클러스터를, 2부에서는 하둡 애플리케이션 프레임워크, 3부에서는 하둡 데이터 관리 및 보호, 고가용성, 4부에서는 데이터 이동, 리소스 할당, 잡 스케줄링, 보안, 5부에서는 모니터링, 최적화, 문제 해결 등을 다룬다. 빅데이터와 머신러닝의 시대, 꼭 필요한 전문가인 하둡 관리자가 되기 위해 반드시 읽어야 할 책으로 추천할 만하다.

 

 

저자 소개


R. 알라파티(Sam R. Alapati)

저자 샘 R. 알라파티(Sam R. Alapati)는 미국 텍사스 주, 사우스레이크에 본사를 두고 있는 사브레(Sabre) 사의 수석 하둡 관리자로서 매일 수많은 하둡 클러스터를 관리하고 있다. 모든 하둡 관리에 대한 자문위원으로서 사브레 사의 EDA(기업 데이터 분석, Enterprise Data Analytics) 그룹의 일원으로 일하고 있으며 하둡의 잡 플로와 관련해서 다수의 중요 데이터 과학과 데이터 분석 작업을 관리하고 최적화하는 일을 한다. 샘은 오라클 데이터베이스 관리 전문가이기도 한다. 그의 관계형 데이터베이스와 SQL에 대한 풍부한 지식은 하둡을 이용한 다수의 프로젝트를 성공으로 이끌었다. 샘의 데이터베이스와 미들웨어에서의 성과는 14년에 걸쳐 18권의 저서에 고스란히 담겨있다. 대부분 오라클 데이터베이스 관리와 오라클 웹로직 서버에 대한 것들이다. 샘은 Modern Linux Administration(현대 리눅스 관리)(오라일리(O’Reilly), 2017)의 저자이기도 하다. 수년에 걸쳐 그가 했던 수많은 시스템 설정, 아키텍처, 성능 관련 하둡 이슈들 다루어온 샘의 경험은 하둡 인프라를 만들고 관리하고 보안을 강화하고 최적화하려고 하는 많은 현역의 하둡 관리자들과 개발자들에게 좋은 참고서가 되고 있다.

 

역자 소개


안진섭

초등학교 때 처음 만난 BASIC 프로그램을 시작으로 프로그램 인생을 시작한 평범한 IT쟁이, 평범한 인생을 살고 있지만 내가 작성하는 프로그램은 평범하지 않기를 바라는 마음으로 한 줄 한 줄 프로그램을 개발하면서 살고 있다. 고려대학교 컴퓨터학과를 졸업하고 삼성 SDS에 입사해 리눅스 드라이버, 미들웨어를 개발했고 아이폰이 국내에 들어왔을 때 모바일 개발자로 전향했다. 사물 인터넷 회사인 매직에코를 공동 창업해 CTO로서 기술 개발에 힘썼다. 현재는 글로벌 기업 SAPHANA 데이터베이스의 코어 엔진 개발을 하고 있다.

주요 프로젝트로는 URC 미들웨어 개발, 로봇 스크립트 엔진 개발, 윈도우 모바일 이메일 클라이언트 개발, SEMP 하이브리드 플랫폼 등 다수의 내부 시스템 개발과 매직에코의 단말, 서버 IoT 플랫폼을 개발했다. 현재는 SQL 실행 엔진을 개발 중이다.

주요 저서로는 진짜 쉽고 쓸모 있는 언어 파이썬!(2016, 성안당), iPhone 실전 프로젝트(2012, 영진출판사)가 있고, 역서로는 리눅스 커널 디자인의 기술(2015, 영진출판사)이 있다.

 

차례

머리말 15

저자 서문 16

이 책은 누구를 위한 것인가? 17

이 책의 구조와 다루고 있는 주제들 17

감사의 말 21

저자에 대하여 23

역자 서문 24

역자에 대하여 25

 

PART Ⅰ• 하둡 소개 아키텍처와 하둡 클러스터 26

Chatper 1. 하둡 소개 및 하둡의 주변 환경 28

 

하둡과 하둡의 생태계에 대한 개요 28

하둡의 특징들 30

빅데이터와 하둡 31

하둡을 사용하는 일반적 시나리오 32

전통적인 데이터베이스 시스템 33

데이터 호수 35

빅데이터, 데이터 과학 그리고 하둡 36

 

클러스터 컴퓨팅과 하둡 클러스들 37

클러스터 컴퓨팅 37

하둡 클러스터들 38

 

하둡 컴포넌트들과 하둡 생태계 40

하둡 관리자들이 하는 일 43

하둡 관리 새로운 패러다임 44

하둡을 관리하기 위해 알아야 하는 것 46

하둡 관리자 툴세트 47

 

하둡 1과 하둡 2의 주요 차이점 47

아키텍처의 차이 47

고가용성 기능들 48

다중 처리 엔진들 48

프로세싱과 스케줄링의 분리 49

하둡 1과 하둡 2의 리소스 할당 방식 49

 

분산형 데이터 처리: 맵리듀스, 스파크, 하이브, 피그 50

맵리듀스 50

아파치 스파크 51

 

데이터 통합: 아파치 스쿱, 아파치 플룸, 아파치 카프카 53

 

하둡 관리의 핵심 영역 54

클러스터 스토리지 관리 55

클러스터 리소스 할당 55

잡 스케줄링 56

하둡 데이터 보안 57

 

요약 58

 

Chatper 2. 하둡 아키텍처 개요 59

 

분산 컴퓨팅과 하둡 59

하둡 아키텍처 60

하둡 클러스터 61

마스터 노드와 워커 노드 61

하둡 서비스 62

 

데이터 스토리지 - 하둡 분산 파일 시스템 63

HDFS 특징들 63

HDFS 아키텍처 64

HDFS 파일 시스템 66

네임노드 오퍼레이션 69

 

하둡 운영 시스템인 얀을 사용한 데이터 프로세싱 74

얀의 아키텍처 75

리소스를 할당하기 위해 애플리케이션마스터가 리소스매니저와 협력하는 방법 80

 

요약 82

 

Chapter 3 간단한 하둡 클러스터 생성 및 환경 설정 83

 

하둡 배포판과 설치 타입 84

하둡 배포판 84

하둡 설치 타입 85

 

가상 분산 하둡 클러스터 설정하기 86

운영 시스템의 조건 충족시키기 87

커널 매개변수의 수정 87

SSH 설정 93

자바 설치 94

하둡 소프트웨어 설치 95

하둡용 사용자 계정 생성 96

필수 디렉토리 생성 96

 

하둡 설정하기 97

환경 설정 파일 98

읽기 전용 디폴트 설정 파일 99

사이트 설정 파일 100

이외의 하둡 관련 설정 파일 100

설정 파일 간의 설정 우선순위 101

변수 확장과 설정 매개변수 104

하둡 데몬 환경 설정 104

core-site.xml 파일로 코어 하둡 속성 설정하기 106

mapred-site.xml 파일로 맵리듀스 설정하기 108

yarn-site.xml로 얀 설정하기 109

 

새로운 하둡 클러스터 운영하기 111

분산 파일 시스템 포맷하기 112

HDFS와 얀 서비스 시작하기 102

서비스 동작 여부 확인하기 115

서비스 중지하기 116

 

요약 116

 

Chapter 4. 하둡 클러스터 계획하기 118

 

클러스터를 계획할 때 일반적으로 고려해야 할 것들 118

서버 구성 요소 120

노드를 선택하는 기준 120

 

싱글 랙에서 멀티 랙으로 가기 121

하둡 클러스터 크기 결정하기 121

CPU, 메모리 그리고 스토리지를 결정하는 일반적인 원칙들 121

마스터 노드에 대해 특별히 고려해야 할 점 125

서버 사이즈에 대한 추천 126

클러스터 확장하기 127

큰 규모의 클러스터를 위한 가이드라인 127

 

멀티노드 클러스터 만들기 128

테스트 클러스터를 만드는 방법 129

 

하둡 설정 파일 수정하기 133

HDFS 설정 변경(hdfs-site.xml 파일) 133

HDFS 매개변수 수정하기 134

얀 설정 수정 135

맵리듀스 설정 변경하기 139

 

클러스터 시작하기 141

스크립트로 클러스터 시작하고 종료하기 143

새로운 클러스터 파일 시스템을 빠르게 점검하기 144

 

하둡 서비스, 웹 인터페이스 그리고 포트 설정하기 145

서비스 설정과 웹 인터페이스 145

하둡 서비스 포트 설정하기 148

하둡 클라이언트 150

 

요약 152

 

 

PART Ⅱ• 하둡 애플리케이션 프레임워크 154

 

Chatper 5. 클러스터에서 야플리케이션 실행하기 맵리듀스 프레임워크(& 하이브와 피그)