Hadoop Q&A 게시판 생성

Hadoop Q&A 게시판 생성할려다 블로그 날려 먹고...

게시글은 살렸지만 첨부 파일은 모두 날라 갔다.

Hadoop 관련 질문은 블로그 상단에 있는 "Hadoop Q&A"로 남겨 주세요...
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


지금까지 Lucene의 서브 프로젝트로 셋방 살았는데 드디어 Top Level Project로 올라 왔다.
커미터는 9명으로 Yahoo, PowerSet, 기타 인력으로 구성되어 있음.

Apache's board this morning voted to make Hadoop a top-level project
(TLP).  The initial project management committee (PMC) for Hadoop will
be composed of the following Hadoop committers:

 * Andrzej Bialecki             <ab@apache.org>
 * Doug Cutting                 <cutting@apache.org>
 * Nigel Daley                  <ndaley@apache.org>
 * Jim Kellerman                <jimk@apache.org>
 * Owen O'Malley                <omalley@apache.org>
 * Enis Soztutar                <enis@apache.org>
 * Michael Stack                <stack@apache.org>
 * Christophe Taton             <taton@apache.org>
 * Thomas E. White              <tomwhite@apache.org>

The initial chair of the PMC will be Owen O'Malley.

Congratulations all!
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


메일링 리스트에 올라온 글이다.
project management committee에 Yahoo 소속 3명, PowerSet 소속 2명, 기타 3 ~ 4명 정도로 구성할 예정이라고 한다.


I think it is time that we make Hadoop a top level project (TLP) at
Apache, hadoop.apache.org, leaving our current home as a Lucene
subproject.  HBase could become a sub-project, as could Pig (now
incubating) and perhaps others.

Hadoop, unlike all other Lucene subprojects, does not use Lucene.  Its
community has considerably less overlap with other Lucene subprojects
than the rest. It also is beginning to have subproject-like things of
its own, like HBase, pushing the boundaries of subproject management.

Many members of the Lucene PMC have little familiarity with the Hadoop
community.  For example, HBase might like to nominate a new committer,
but a majority of the Lucene PMC would find it difficult to evaluate
this candidate, since they do not follow HBase development.  It would be
better if such discussions could be made by a PMC that had
representation from and broad familiarity with HBase.

Diversity is an issue with Hadoop becoming a TLP.  The majority of
Hadoop committers are employed by Yahoo!.  But I think we can construct
an initial PMC that is diverse enough to overcome this, with perhaps
three folks from Yahoo!, two from Powerset, and three or four
independent folks, so that Yahoo! does not have a majority on the PMC.

Would other members of the Hadoop community support this move?

Thanks,
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


hadoop 메일링 리스트에 다음과 같은 내용의 글이 올라왔다.

I'd say that the current state of Hbase is more suited to offline processing than to online serving duties, but I do envision that the roadmap for Hbase could extend to cover those capabilities. Currently, however, Michael and Jim are spending most of their time stabilizing the core of the system and working on basic performance bottlenecks, especially as several large scale Hbase installations are starting to pop up and file issues.

Here are some of the things that I think would move Hbase in the right direction for online serving:


 1.  Atomic appends for a single writer (HADOOP-1700): We have to have atomic appends for the commit log or durability is not guaranteed. This is a pressing issue in any case for any offline processing use case that requires a 100% guarantee on durability.
 2.  Real-time master failover: Need to make sure there is zero downtime on failure of the HDFS master and the Hbase master. Perhaps the Zookeeper project will provide the key part of the solution although I don't have much visibility into where Zookeeper stands and what its roadmap looks like. Can anyone say anything more?
 3.  More performance work: Michael did some performance measurements a while back that seemed to indicate a lot of time spent back-and-forth in RPC. We're exploring Thrift as a lighter-weight RPC mechanism, but there are probably other things to be done to reduce this cost. More analysis and measurement would be helpful.
 4.  Tighter integration between HDFS and Hbase: Preference for running the region server on the same node as one of the replicas of the underlying tables would lower latency.
 5.  Memory caching: Instead of pinning a whole Hbase table in RAM, I'd recommend the use of memcached in front of Hbase to provide cached read access.

Once these things are in place, Hbase could provide a reasonably performant large-scale online serving system. The main advantages of such a system would be its flexible schema, automatic repartitioning, and centralized administration, especially when compared with a system based around many separate MySQL instances with memcached in front of them. It would not have full ACID properties but there are many interesting applications that don't require strong guarantees in those areas.

Anyone who'd like to start tackling any of the above items should feel free to chime in here or jump on the Hbase IRC - more contributors always welcome!


작성자는 Chad Walters라고 되어 있는데 메일을 보니 HBase 메인 개발자가 근무하는 PowerSet에 같이 일하고 있는 것 같다. PowerSet에서 HBase는 대부분 개발하고 있는 것 같은데....

내용은 아직 HBase는 온라인 서비스에는 이용하기 어렵고, 현재는 코어 모듈의 안정화에 최우선 작업중이라고 한다. 그리고 큰 규모의 클러스터에도 안정적으로 운영되도록 하는데도 집중한다고.
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


유감-hadoop windows client 미지원

버전이 언제부터인지는 모르겠지만 windows에서 hadoop client 모듈을 이용하여 파일 upload 작업을 수행할 수 없게 되었다.
서버나 Map&Reduce 작업 수행은 linux에서 하도록 하는 것은 어쩔수 없겠지만 파일 업로드하는 작업을 windows에서 할 수 없도록 한 것은 이해가 안된다.

소스를 뒤져본 결과 파일 업로드 로컬에 temp 파일을 만든 후 close 시 전송하는데 이 temp 파일을 만들 때 로컬 디스크에 여유 공간을 확인하기 위해 "df" 명령을 이용하고 있다. 이런...
그리고 생성되는 파일도 무조건 상대경로를 이용하여 "tmp" 아래에 만들고 있다.

windows에서 클라이언트 모듈을 사용할 경우 다음 코드를 수정해 주면 된다.

org.apache.hadoop.dfs.DFSClient 에서

DFSClient의 private File newBackupFile() throws IOException 부분을 찾아 모두 주석처리하고 다음 코드로 대체한다.

      String name = "c:/temp/client-" + Math.abs(r.nextLong());
      File result = new File(name);
      return result;  

build package 후 jar를 이용하면 windows에서도 사용 가능하다.

hadoop 커뮤니티에 따질려고 해도 영어 때문에... 쩝.

windows에서 발생하는 대부분의 문제는 경로와 df 또는 sh 명령 문제이다.

소스에서 DF.java 클래스를 사용하는 부분 또는 DU.java 등을 사용하는 부분을 찾아 수정하면 된다.

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


powerset CTO의 한국 방문 소감

올 11월 부산에서 열린 "International Semantic Web Conference"에서 발표한 Dr. Barney Pell의 개인 블로그에 한국 방문기를 올려 놓았다.
Dr. Barney Pell이 있는 PowerSet이라는 회사는 자연어 처리 기술을 시멘틱웹 등에 접목시켜 의미있는 서비스를 만들려고 시도하고 있는 벤처회사이다.
Hadoop의 위키에 있는 powerd by hadoop 페이지에서 amazon E3에서 400노드 정도로 hadoop을 운영하고 있다고 밝히고 있는 회사이다.

블로그는 여기 : http://www.barneypell.com/archives/2007/11/my_first_trip_t.html
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


요즘 Hadoop에 대한 반응이 상당한 것 같다.

IBM이 13일(미국시간) 대량 데이터베이스를 갖춘 대규모 애플리케이션을 인터넷으로 편리하게 실행하기 위한 "블루 코드"라는 제품을 발표했다.

이 제품은 그리드 컴퓨팅 소프트웨어와 가상화 툴 젠 및 파워VM, 야후가 개발한 오픈소스 하둡(Hadoop) 병렬 워크로드 스케줄링 소프트웨어를 포함한다. 또한 컴퓨팅 수요 변화에 적응하는 하드웨어를 자동으로 제공하기 위한 IBM의 티볼리 데이터 센터 관리 소프트웨어도 포함된다.

http://www.zdnet.co.kr/news/enterprise/etc/0,39031164,39163354,00.htm




 

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


Yahoo, Hadoop 클러스터 외부 오픈

 Yahoo의 hadoop 클러스터를 학교 등 연구목적으로 하는 곳에서 사용할 수 있도록 오픈한다는 기사이다.
카네기멜론에서 우선 사용한다고 하는데 국내 업체에서는 이런거 구축해서 오픈할 곳은 없나???

http://biz.yahoo.com/bw/071112/20071112005373.html

Yahoo! Launches New Program to Advance Open-Source Software for Internet Computing

Carnegie Mellon University First to Take Advantage of Yahoo!'s Large-Scale Hardware and Software Investments for the Open Source Community

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


분산파일시스템만이 가지고 있는 기능의 한계 때문에 Hadoop File System을 이용하여 개발할때 귀찮은 점이 많았다. 하지만 이제는 지원하지 않는 기능은 당연히 없다라고 생각하고 기존 일반 파일시스템을 이용할 때와는 다른 생각으로 프로그램을 하다 보니 그럭저럭 쓸만하다는 것이 개인적인 생각이다.
오늘은 문득 앞으로 많은 프로그램들이 분산파일시스템 기반하에서 운영되도록 만들어지지 않을까 하는 생각도 해본다. 실제 파일을 사용하는 프로그램 중 Random write 기능은 많이 사용되지 않는다. 파일 lock 등도 잘 사용하지 않는다. 다만 append 기능은 자주 사용하고 있는데 지원하지 않는 것이 아쉽다. hadoop에 append 기능을 구현하는 것은 어렵지 않으니 언젠가는 추가 되겠지...
Hadoop와 같은 분산파일시스템을 이용하여 시스템을 개발하면 다음과 같은 장점이 있다.

1. 파일에 대한 백업/복구가 거의 필요 없다.
    NAS와 같은 비싼 스토리지를 사용하지 않고도 안정적인 파일 보관이 가능하다.

2. 파일에 대한 공유는 기본이다.
    파일의 Global name space를 제공하기 때문에 모든 클라이언트가 파일을 공유할 수 있다.

3. 파일 접근에 bottleneck이 발생하지 않는다.
    여러 서버에서 파일 서비스를 하기 때문에 bottleneck이 발생하지 않는다.

4. 파일이 클 경우 Map&Reduce를 이용하여 병렬처리도 할 수 있다.

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


HBase를 이용한 예제???

HBase가 어떻게 사용될 수 있는지에 대해 고민중인데, 머리속에 딱히 좋은 생각이 떠오르지 않는데
검색, 대용량 데이터 분석, 데이터 마이닝 등의 업무와는 인연이 없었기에 찾기가 쉽지 않다.

어떻게 사용되는지 구체적인 그림을 그리지 못하는 상태에서 설계, 개발한다는 것은 무모한 짓임이 틀림없다.
그나마 쉽게 적용해 볼 수 있는 부분이 Bigtable의 논문에 나와 있는 Analytics인데 이건 너무 식상한 주제인것 같고...

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


« Previous : 1 : ... 5 : 6 : 7 : 8 : 9 : 10 : 11 : 12 : 13 : Next »