기능목록>검색 : 해군사관학교 학술정보원

(시작하세요!) 하둡 프로그래밍 : 기초부터 실무까지 하둡의 모든 것

QR코드

미리보기 도서정보

도서 상세정보
자료유형 :	단행본
ISBN :	9788998139049
분류기호 :	004.36
개인저자 :	정재화
서명/저자사항 :	(시작하세요!) 하둡 프로그래밍: 기초부터 실무까지 하둡의 모든 것/ 정재화 지음.
대등표제 :	Beginning hadoop programming : development and operations
발행사항 :	파주: 위키북스, 2012.
형태사항 :	xxviii, 464 p.: 삽화, 도표; 25 cm.
총서사항 :	위키북스 오픈소스 & 웹 시리즈; 42.
일반주기 :	찾아보기: p. 456-464
일반주기 :	이 도서는 2013년 대한민국학술원 선정 '우수학술도서'임
일반주기 :	부록: A. 윈도우 환경에서 설치하기, B. 하둡 2.0 소개
서지주기 :	참고문서 및 참고사이트: p. [442-455]
분류기호 :	004.36
언어	한국어

소장정보

해군사관학교

예예약
인인쇄
SSMS
서서가부재
보보존서고
우우선정리예약
무무인예약대출

예약

1. 예약현황은 홈페이지 로그인 후 예약 페이지에 확인 가능합니다.
2. 도착 통보된 예약자료 대출을 원하지 않는 경우에는 예약 현황에서 취소할 수 있습니다.
3. 기타 문의사항은 도서관에 문의 바랍니다.

닫기

무인예약대출

1. 무인예약대출 현황은 홈페이지 로그인 후 무인예약대출 페이지에 확인 가능합니다.
2. 무인예약대출자료 대출을 원하지 않는 경우에는 무인예약대출 페이지에서 신청 또는 접수상태인 경우만 취소할 수 있습니다.
3. 희망대출일은 신청일로부터 최대 1주일 까지 가능합니다.
4. 희망대출일을 선택하지 않은 경우 대출대기 통보 후 1주일까지 기기에서 대출가능합니다.
5. 기타 문의사항은 도서관에 문의 바랍니다.

닫기

목차
01 하둡 소개 = 1
1.1 빅 데이터의 시대 = 2
1.1.1. 빅 데이터의 개념 = 2
1.1.2. 빅 데이터의 출현 배경 = 5
1.2 하둡이란? = 6
1.2.1. 왜 하둡인가? = 7
1.2.2. 하둡이 지나온 길 = 8
1.3 하둡 에코 시스템 = 10
1.4 하둡에 대한 오해 = 13
1.5 하둡의 과제 = 15
1.6 하둡 배포판 살펴보기 = 16
02 하둡 개발 준비 = 19
2.1 실행 모드 결정 = 20
2.2 리눅스 서버 준비 = 20
2.3 하둡 다운로드 = 21
2.4 하둡 실행 계정 생성 = 23
2.5 호스트 파일 수정하기 = 24
2.6 인코딩 방식 설정 = 25
2.7 자바 설치 = 26
2.8 SSH 설정 = 29
2.9 하둡 압축 파일 해제하기 = 31
2.10 하둡 환경설정 파일 수정 = 33
2.10.1. hadoop-env 수정 = 33
2.10.2. maters 수정 = 36
2.10.3. slaves 수정 = 36
2.10.4. core-site.xml 수정 = 36
2.10.5. hdfs-site.xml 수정 = 37
2.10.6. mapred-site.xml 수정 = 38
2.11 하둡 실행 = 39
2.12 예제 실행하기 = 42
2.13 이클립스 설정 = 44
2.14 프로젝트 빌드하기 = 46
03 하둡 분산 파일 시스템 = 51
3.1 HDFS 기초 = 52
3.2 HDFS 아키텍처 = 54
3.2.1. 블록 구조 파일 시스템 = 54
3.2.2. 네임노드 와 데이터노드 = 55
3.2.3. 파일 저장 = 57
3.2.4. 파일 읽기 = 58
3.2.5. 보조 네임노드 = 59
3.3 HDFS 명령어 사용하기 = 62
3.3.1. 파일 목록 보기 - ls, lsr = 62
3.3.2. 파일 용량 확인 - du, dus = 64
3.3.3. 파일 내용 보기 - cat, text = 65
3.3.4. 디렉터리 생성 - mkdir = 66
3.3.5. 파일 복사 ? put, get, getmerge, cp, copyFromLocal, copyToLocal = 67
3.3.6. 파일 이동 - mv, moveFromLocal = 72
3.3.7. 파일 삭제하기 - rm = 73
3.3.8. 디렉터리 삭제 - rmr = 73
3.3.9. 카운트값 조회 - count = 74
3.3.10. 파일의 마지막 내용 확인 - tail = 74
3.3.10. 권한 변경 - chmod, chown, chgrp = 75
3.3.12. 0바이트 파일 생성 - touchz = 77
3.3.13. 통계 정보 조회 ? stat = 77
3.3.14. 복제 데이터 개수 변경 - setrep = 78
3.3.15. 휴지통 비우기 - expunge = 79
3.3.16. 파일 형식 확인 - test = 79
3.4 클러스터 웹 인터페이스 = 79
3.5 HDFS 입출력 예제 = 81
04 맵리듀스 시작하기 = 85
4.1 맵리듀스 개념 = 86
4.2 맵리듀스 아키텍처 = 88
4.2.1. 시스템 구성 = 88
4.2.2. 맵리듀스 작동 방식= 89
4.2.3. 하둡 프로그래밍의 요소 = 92
4.3 WordCount 만들기 = 101
4.3.1. 매퍼 구현 = 101
4.3.2. 리듀서 구현 = 103
4.3.3. 드라이버 클래스 구현 = 105
4.3.4. WordCount 빌드 = 108
4.3.5. WordCount 실행 = 108
4.3.6. 웹에서 실행 결과 확인 = 111
05 맵리듀스 기초 다지기 = 115
5.1 분석용 데이터 준비 = 116
5.2 항공 출발 지연 데이터 분석 = 119
5.2.1. 매퍼 구현 = 119
5.2.2. 리듀서 구현 = 121
5.2.3. 드라이버 클래스 구현 = 122
5.2.4. 드라이버 클래스 실행 = 124
5.3 항공 도착 지연 데이터 분석 = 126
5.3.1. 매퍼 구현 = 127
5.3.2. 리듀서 구현 = 128
5.3.3. 드라이버 클래스 구현 = 128
5.3.4. 드라이버 클래스 실행 = 129
5.4 사용자 정의 옵션 사용 = 131
5.4.1. 사용자 정의 옵션의 이해 = 132
5.4.2. 매퍼 구현 = 135
5.4.3. 드라이버 클래스 구현 = 138
5.4.4. 드라이버 클래스 실행 = 140
5.5 카운터 사용 = 141
5.5.1. 사용자 정의 카운터 구현 = 142
5.5.2. 매퍼 구현 = 142
5.5.3. 드라이버 클래스 구현 =145
5.5.4. 드라이버 클래스 실행 = 146
5.6 다수의 파일 출력 = 147
5.6.1. MultipleOutputs 이해 = 148
5.6.2. 매퍼 구현 = 148
5.6.3. 리듀서 구현 = 150
5.6.4. 드라이버 클래스 구현 = 152
5.6.5. 드라이버 클래스 실행 = 154
5.7 체인(Chain) = 155
06 정렬 구현하기 = 159
6.1 보조 정렬 = 160
6.1.1. 복합키 구현 = 161
6.1.2. 복합키 비교기 구현 = 163
6.1.3. 그룹키 파티셔너 구현 = 165
6.1.4. 그룹키 비교기 구현 = 166
6.1.5. 매퍼 구현 = 167
6.1.6. 리듀서 구현 = 169
6.1.7. 드라이버 구현 = 172
6.1.8. 드라이버 실행 = 174
6.2 부분 정렬(Partial Sort) = 177
6.2.1. 시퀀스파일 생성 = 178
6.2.2. 맵파일 생성 = 183
6.2.3. 검색 프로그램 구현 = 186
6.3 전체 정렬(Total Sort) = 191
07 조인 구현하기 = 197
7.1 조인 데이터 준비 = 198
7.2 맵-사이드 조인 = 199
7.2.1. 분산 캐시(DistributedCache) = 199
7.2.2. 매퍼 구현 = 202
7.2.3. 드라이버 클래스 구현 = 204
7.2.4. 드라이버 클래스 실행 = 206
7.3 리듀스-사이드 조인 = 208
7.3.1. 항공기 코드 데이터 매퍼 구현 = 210
7.3.2. 항공기 운항 통계 데이터 매퍼 구현 = 211
7.3.3. 리듀서 구현 = 213
7.3.4. 드라이버 클래스 구현 = 214
08 맵리듀스 튜닝하기 = 219
8.1 셔플 튜닝 = 220
8.1.1. 셔플이란? = 220
8.1.2. 정렬 속성 수정 = 222
8.2 콤바이너 클래스 적용 = 224
8.3 맵 출력 데이터 압축 = 228
8.3.1. Gzip 적용 = 228
8.3.2. 스내피 설치 = 230
8.3.3. 스내피 적용 = 232
8.4 DFS 블록 사이즈 수정 = 234
8.5 JVM 재사용 = 239
8.6 투기적인 잡 실행 = 240
09 하둡 운영하기 = 243
9.1 네임노드 HA 구성 = 244
9.1.1. 아바타 노드의 등장 배경 = 245
9.1.2. 아바타 노드의 작동 방식 = 245
9.2 파일 시스템 상태 확인 = 247
9.3 HDFS 어드민 명령어 사용 = 251
9.3.1. report = 252
9.3.2. safemode = 253
9.3.3. saveNamespace = 254
9.3.4. 파일 저장 개수 설정 = 255
9.3.5. 파일 저장 용량 설정 = 257
9.4 데이터 저장 공간 관리 = 258
9.5 데이터노드 제거 = 261
9.6 데이터노드 추가 = 264
9.7 네임노드 장애 복구 = 268
9.7.1. 네임노드와 보조 네임노드 데이터 구조 = 269
9.7.2. 보조 네임노드를 이용한 장애 복구 = 270
9.7.3. NFS를 이용한 장애 복구 = 273
9.8 데이터노드 장애 복구 = 274
10 하둡 부가기능 이용하기 = 275
10.1 하둡 스트리밍 = 276
10.1.1. 하둡 스트리밍의 동작 방식 = 276
10.1.2. 하둡 스트리밍 실행 옵션 = 276
10.1.3. 유닉스 명령어를 이용한 스트리밍 구현 = 278
10.1.4. 파이썬을 이용한 스트리밍 구현 = 285
10.1.5. aggregate 패키지 이용 = 289
10.2 잡 스케줄러 = 294
10.2.1. 페어 스케줄러 = 294
10.2.2. 커패시티 스케줄러 = 303
11 클라우드 환경에서 하둡 실행하기 = 317
11.1 아마존 웹 서비스(AWS) 소개 = 318
11.2 AWS 가입하기 = 319
11.3 EC2 하둡 설정 = 323
11.3.1. EC2 인스턴스 생성 = 323
11.3.2. EC2 접속하기 = 330
11.3.3. SSH 인증키 복사 = 337
11.3.4. 방화벽 설정 = 338
11.3.5. 하둡 설치 = 339
11.4 S3 설정 = 346
11.4.1. 데이터 업로드 = 346
11.4.2. EC2와의 연동 = 348
11.5 EMR 사용 = 353
11.5.1. EMR 관리 콘솔 실행 = 353
11.5.2. S3에 데이터 업로드하기 = 355
11.5.3. 작업 흐름 생성 = 355
11.5.4. 작업 흐름을 실행한 결과 확인 = 359
11.5.5. 출력 데이터 조회 = 360
12 하이브 활용하기 = 361
12.1 하이브 아키텍처 = 362
12.2 하이브 설치 방법 = 363
12.3 하이브QL 사용하기 = 366
12.3.1. 테이블 생성 = 367
12.3.2. 데이터 업로드 = 371
12.3.3. 집계 함수 = 373
12.3.4. 조인 = 377
12.3.5. 버킷 활용 = 382
13 하둡 적용 사례 = 385
13.1 NHN: 하둡과 몽고디비를 이용한 로그 분석 시스템 = 386
13.1.1. 스토리지의 급격한 증가 = 386
13.1.2. 통계 작업 솔루션 선정 = 387
13.1.3. 맵리듀스 프레임워크를 이용한 통계 작업 = 388
13.1.4. 통계 결과 저장소 선정 = 392
13.1.5. 최종 시스템 구성 = 393
13.2 넥스알: 하둡 생태계를 활용한 KT 분석 플랫폼 구축 사례 = 394
13.2.1. NDAP 적용 배경 = 394
13.2.2. NDAP 플랫폼 아키텍처 = 396
13.2.3. 성능 테스트 결과 = 397
13.3 그루터: 빅 데이터 기술을 이용한 소셜 네트워크 데이터 분석 서비스 = 398
13.3.1. 시스템 아키텍처 = 398
13.3.2. 제공 기능 = 402
부록 A 윈도우 환경에서 설치하기 = 407
A.1 자바 설치 = 408
A.2 시그윈 설치 = 409
A.3 SSH 설정 = 418
A.4 하둡 압축 파일 풀기 = 421
A.5 하둡 환경설정 파일 수정 = 423
A.6 하둡 실행 = 424
A.7 예제 실행 = 426
부록 B 하둡 2.0 소개 = 429
B.1 HDFS 페더레이션 = 430
B.1.1. 기존 HDFS의 문제점 = 430
B.1.2. HDFS 페더레이션 아키텍처 = 431
B.1.3. HDFS 페더레이션의 장점 = 432
B.1.4. 네임스페이스 관리 = 433
B.2 차세대 맵리듀스: YARN = 433
B.2.1. YARN 등장 배경 = 434
B.2.2. YARN 시스템 아키텍처 = 434
B.2.3. YARN의 장점 = 436
B.3 성능 개선 = 437
B.4 네임 노드의 HA 지원 = 439