Hadoop Archive

Hadoop에서 S3 데이터 MR, Hive작업 등

Hadoop summit 후기(2)를 써야 하는데 놀러다니느라 정신 없어서 미루고 있습니다. 1 편에서 할말은 거의 했기 때문에… 오랜만에 간단한 기술팁 올립니다. 제가 지금까지 AWS 환경은 거의 사용을 하지 않았는데 이번에 사용할 기회가 있어 삽질을 하고 있습니다. Hadoop 정식 doc에 이거 정리 좀 되어 있었으면 삽질 덜 했을텐데 문서 없는 바람에 삽질했네요. 요즘 영어 Writing을 배우고 있는데

HBase의 puts와 batch의 차이

오늘 지인이 질문때문에 HBase의 HTable 클래스의 puts와 batch에 대해 코드를 잠깐 살펴 보았습니다.at a glance로 본거라서 틀린 부분이 있을 수 있습니다. 틀린 부분이 있으면 알려주시면 수정하겠습니다.puts와 batch는 처리 성능을 높이기 위해 여러개의 row를 모아서 한번에 보내는 방식으로 구현되어 있습니다. 내부적으로는 파라미터로 받은 Row 목록에서 rowkey를 이용하여 같은 regionserver에서 서비스 되고 있는 Row로 묶어서 각 regionserver

YARN에서 MapReduce 관련 옵션

YARN은 Hadoop2의 가장 대표적인 기능중에 하나이지만 개념적으로 환경설정, 튜닝 등의 이슈들이 아직 많이 공유되지 않아서 실제 사용 클러스터에서는 많이 사용하지 않는 것 같다. CDH 버전이 많이 배포되는 이유도 Hadoop 2.0 이상에서만 지원되는 HDFS의 NameNode 이중화는 사용하고 싶고 MR은 기존 방식인 MR1을 사용하고자 하는 사용자의 요구사항에 CDH 배포판이 딱 맞아 떨어지기 때문이 아닌가 생각한다. YARN 환경

Impala TPC-DS 성능 테스트 결과 의견

최근 Cloudera에서 Impala와 Hive, 분산DBMS와 테스트를 한 블로그가 올라 왔습니다. Impala Performance Update: Now Reaching DBMS-Class Speed 이 자료를 처음 보고 놀란 것은 3TB 데이터를 5대의 DataNode로 질의가 대부분 10 ~ 20초 사이에 실행되고 있는 결과 그래프였습니다. 단순히 이 그래프의 수치만 믿고 Impala를 도입해야 겠다거나 “Impala 열라 빠르더라” 라고 보편적으로 이야기할 분들이 계실 것 같았습니다.

최근 Data 처리 관련 오픈소스

벌써 2014이 일주일 지났는데 올해 무엇을 할지 계획도 못 세웠습니다. 그래도 대략 정리는 해야 할 것 같아서 최근 출시되거나 관심을 받고 있는 데이터 처리 플랫폼에 대해 정리해 보았습니다. Acculumohttp://accumulo.apache.orgHBase와 유사한 시스템으로 HDFS에 데이터 파일을 저장하는 Key/Value Store로 NSA에서 개발되어 현재는 apache 프로젝트로 공개 Samzahttp://samza.incubator.apache.org LinkedIn에서 개발한 Storm과 비슷한 플랫폼으로 Kafka, YARN 등을 사용하여 스트리밍 프로세싱을 지원하는