Hadoop Q&A 게시판 생성
- Posted at 2008/01/18 17:10
- Filed under project/lucene_hadoop
게시글은 살렸지만 첨부 파일은 모두 날라 갔다.
Posted by 김형준
- Response
- No Trackback , No Comment
Posted by 김형준
Posted by 김형준
메일링 리스트에 올라온 글이다.
project management committee에 Yahoo 소속 3명, PowerSet 소속 2명, 기타 3 ~ 4명 정도로 구성할 예정이라고 한다.
Posted by 김형준
Posted by 김형준
버전이 언제부터인지는 모르겠지만 windows에서 hadoop client 모듈을 이용하여 파일 upload 작업을 수행할 수 없게 되었다.
서버나 Map&Reduce 작업 수행은 linux에서 하도록 하는 것은 어쩔수 없겠지만 파일 업로드하는 작업을 windows에서 할 수 없도록 한 것은 이해가 안된다.
소스를 뒤져본 결과 파일 업로드 로컬에 temp 파일을 만든 후 close 시 전송하는데 이 temp 파일을 만들 때 로컬 디스크에 여유 공간을 확인하기 위해 "df" 명령을 이용하고 있다. 이런...
그리고 생성되는 파일도 무조건 상대경로를 이용하여 "tmp" 아래에 만들고 있다.
windows에서 클라이언트 모듈을 사용할 경우 다음 코드를 수정해 주면 된다.
org.apache.hadoop.dfs.DFSClient 에서
DFSClient의 private File newBackupFile() throws IOException 부분을 찾아 모두 주석처리하고 다음 코드로 대체한다.
String name = "c:/temp/client-" + Math.abs(r.nextLong());
File result = new File(name);
return result;
build package 후 jar를 이용하면 windows에서도 사용 가능하다.
hadoop 커뮤니티에 따질려고 해도 영어 때문에... 쩝.
windows에서 발생하는 대부분의 문제는 경로와 df 또는 sh 명령 문제이다.
소스에서 DF.java 클래스를 사용하는 부분 또는 DU.java 등을 사용하는 부분을 찾아 수정하면 된다.
Posted by 김형준
Posted by 김형준
요즘 Hadoop에 대한 반응이 상당한 것 같다.
IBM이 13일(미국시간) 대량 데이터베이스를 갖춘 대규모 애플리케이션을 인터넷으로 편리하게 실행하기 위한 "블루 코드"라는 제품을 발표했다.
이 제품은 그리드 컴퓨팅 소프트웨어와 가상화 툴 젠 및 파워VM, 야후가 개발한 오픈소스 하둡(Hadoop) 병렬 워크로드 스케줄링 소프트웨어를 포함한다. 또한 컴퓨팅 수요 변화에 적응하는 하드웨어를 자동으로 제공하기 위한 IBM의 티볼리 데이터 센터 관리 소프트웨어도 포함된다.
http://www.zdnet.co.kr/news/enterprise/etc/0,39031164,39163354,00.htm
Posted by 김형준
Yahoo! Launches New Program to Advance Open-Source Software for Internet Computing
Posted by 김형준
분산파일시스템만이 가지고 있는 기능의 한계 때문에 Hadoop File System을 이용하여 개발할때 귀찮은 점이 많았다. 하지만 이제는 지원하지 않는 기능은 당연히 없다라고 생각하고 기존 일반 파일시스템을 이용할 때와는 다른 생각으로 프로그램을 하다 보니 그럭저럭 쓸만하다는 것이 개인적인 생각이다.
오늘은 문득 앞으로 많은 프로그램들이 분산파일시스템 기반하에서 운영되도록 만들어지지 않을까 하는 생각도 해본다. 실제 파일을 사용하는 프로그램 중 Random write 기능은 많이 사용되지 않는다. 파일 lock 등도 잘 사용하지 않는다. 다만 append 기능은 자주 사용하고 있는데 지원하지 않는 것이 아쉽다. hadoop에 append 기능을 구현하는 것은 어렵지 않으니 언젠가는 추가 되겠지...
Hadoop와 같은 분산파일시스템을 이용하여 시스템을 개발하면 다음과 같은 장점이 있다.
1. 파일에 대한 백업/복구가 거의 필요 없다.
NAS와 같은 비싼 스토리지를 사용하지 않고도 안정적인 파일 보관이 가능하다.
2. 파일에 대한 공유는 기본이다.
파일의 Global name space를 제공하기 때문에 모든 클라이언트가 파일을 공유할 수 있다.
3. 파일 접근에 bottleneck이 발생하지 않는다.
여러 서버에서 파일 서비스를 하기 때문에 bottleneck이 발생하지 않는다.
4. 파일이 클 경우 Map&Reduce를 이용하여 병렬처리도 할 수 있다.
Posted by 김형준
HBase가 어떻게 사용될 수 있는지에 대해 고민중인데, 머리속에 딱히 좋은 생각이 떠오르지 않는데
검색, 대용량 데이터 분석, 데이터 마이닝 등의 업무와는 인연이 없었기에 찾기가 쉽지 않다.
어떻게 사용되는지 구체적인 그림을 그리지 못하는 상태에서 설계, 개발한다는 것은 무모한 짓임이 틀림없다.
그나마 쉽게 적용해 볼 수 있는 부분이 Bigtable의 논문에 나와 있는 Analytics인데 이건 너무 식상한 주제인것 같고...
Posted by 김형준