hadoop 0.18 release

hadoop 0.18이 릴리즈 되었습니다. 다음은 변경된 내용중에 주요 내용을 정리 했습니다.
 
새로운 기능 중에 주목할 부분은 NameNode의 메모리 한계 때문에 크기가 작은 파일을 많이 저장하는 것은 어려웠는데 작은 파일을 묶어 하나의 압축 파일에 묶어 저장할 수 있는 방법이 추가 되었습니다. 그리고 FTP를 이용하여 직접 HDFS에 저장하는 기능도 추가 되었습니다.

HADOOP-3355

conf

Configuration hexadecimal 추가 가능

HADOOP-2065

dfs

LocatedBlock 내에 corrupt flag 추가 되었음

Block 모든 replica corrupt 경우 true 설정

HADOOP-2585

dfs

NameNode 파일 시스템 이미지 정보 관리 향상

NameNode 이미지 정보가 삭제된 경우 마지막 check point 시점의 이미지 파일을 SecondaryNameNode로부터 복사한다.

HADOOP-2703

dfs

fsck 처리 write 중인 파일은 무시.

Write 중인 파일까지 fsck 경우에는 "-openforwrite" 옵션 사용

HADOOP-2797

dfs

CRC 없는 버전에서 CRC 있는 버전으로 업그레이드는 지원하지 않음. 따라서 0.13이전 버전은 이상의 버전으로 업그레이드 다음 0.18 업그레이드 해야 .

HADOOP-2865

dfs

“fs –ls” 명령의 결과를  Linux format 비슷하게 변경

HADOOP-3113

dfs

FDDataOutputStream sync() 메소드 추가. sync() 메소드는 호출 즉시 버퍼에 있는 내용을 HDFS 저장.

HADOOP-3232

dfs

디스크의 볼륨을 확인하기 위한  “du” 명령을 별도의 thread 처리. 사용자 작업을 block 시키지 않는다.

HADOOP-3317

dfs

hdfs 기본 포트를 8020으로 변경. 기본 포트로 접속할 경우에는 포트는 생략해도 (hdfs://example.com/dir/file)

HADOOP-3265

fs

getFileCacheHints 메소드 삭제

HADOOP-3307

fs

작은 파일을 하나의 파일로 묶어서 저장할 있는 기능 제공(Hadoop Archive, har 포맷)

Map&Reduce에서도 사용 가능

HADOOP-4

fuse-dfs

FUSE 마운트 기능

HADOOP-1915

mapred

Reporter 다음 메소드 추가

 "incrCounter(String group, String counter, long amount)"

HADOOP-2019

mapred

DistributedCache tar tgz tar.gz 포맷 추가

2GB 까지 가능

HADOOP-2095

mapred

Map-reduce 수행 중에 발생하는 key, value 메모리 복사 향상.

HADOOP-2132

mapred

 “job –kill” 명령은 RUNNING, PREP 상태의 job kill

HADOOP-2181

mapred

Job Tracker log Job history로그에 input split 대한 로그 추가, WEB UI에서도 조회 가능

HADOOP-2427

mapred

Task working directory task 종료되자 마자 삭제

(${mapred.local.dir}/taskTracker/jobcache/<jobid>/<task_dir>/work)

HADOOP-3135

mapred

Client mapred.system.dir” 값이 job trackker 값과 틀린 경우 job 수행이 안되도록 수정

HADOOP-3221

mapred

n개의 라인을 하나의 레코드로 인식하는 NLineInputFormat 추가

HADOOP-3226

mapred

Combiner 여러 수행 가능하도록 변경. Combiner map 출력이 sort, merge 수행된다. Reduce 측에서도 수행 가능한데 data merge 수행된다. 기존 방식을 유지하기 위해서는 다음과 같이 한다.

job.setCombineOnlyOnce(true);

HADOOP-3366

mapred

Shuffle 향상(shuffle reduce에서 map 결과를 merge 하는 과정인데 기존에는 map 많은 경우 속도가 많이 느렸음)

HADOOP-3460

mapred

Key, value raw byte 경우를 위해 SequenceFileAsBinaryOutputFormat  클래스 추가

HADOOP-3230

scripts

Command line명령에 "job -counter <job-id> <group-name> <counter-name>" 추가

HADOOP-3246

util

Introduced an FTPFileSystem backed by Apache Commons FTPClient to directly store data into HDFS.

FTP client 이용하여 직접 HDFS 저장

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


Trackback URL : http://www.jaso.co.kr/trackback/282

Comments List

  1. ikspres 2008/08/28 08:11 # M/D Reply Permalink

    안녕하세요. 어제 뒤풀이에서 옆자리에 앉았던 김정현입니다. 만나뵙게 되어서 정말 반가웠습니다.^^

Leave a comment
« Previous : 1 : ... 150 : 151 : 152 : 153 : 154 : 155 : 156 : 157 : 158 : ... 388 : Next »