조엘스폴스키 오프라인 인터뷰

제가 인터뷰 한것은 아니고요...
에이콘 출판사에서 인터뷰한 내용입니다.

http://www.acornpub.co.kr/blog

에이콘 김부사장님께서 메신저로 조엘온과 저녁 약속있는데 인터뷰 질문할 것 있냐고 해서 평소 궁금한 것 몇가지를 전달했습니다.
제가 질문한 내용은

Q. 나이가 들면 현업에서 개발자로서 일하기가 쉽지가 않죠. 어떻게 생각하세요?
A. 물론 그렇긴 하죠. 대부분 30대 중반이 들어선 개발자라면 누구나 그런 고민에 휩싸이게 됩니다. 하지만 45세, 50세가 되어서도 개발자로 활동하는 분들이 많듯이 나이가 중요한 요소는 아니라고 생각합니다. 물론, 젊은 사람들보다는 코딩 속도가 떨어지긴 하겠죠. 하지만 개인의 역량에 따라 다르긴 하지만 연륜이 쌓이게 되면 속도를 보완할 수 있을 만큼 질 높은 코드를 생산해낼 수 있다고 단언합니다.

Q. 한국의 경우, 경력이 쌓이면서 자연스럽게 개발현업에서 발을 빼고 관리자로 옮겨가는 일이 잦습니다. 관리와 개발을 병행하는 것에 대해 어떻게 생각하십니까?
A. 개발과 관리는 전혀 다른 영역의 문제고, 모두를 잘 할 수 있는 능력을 보유한 사람은 흔치 않죠. 저마다 다른 재능을 요구하기 때문입니다. 개발자가 관리자를 겸하는 순간, 모든 문제의 시작은 여기서 비롯된다고 생각합니다.

Q. 한국 개발자라든가 특정 국가 개발자들이 서로 뭔가 다른 점이 있다고 생각합니까?
A. 글쎄요. 깊이 생각해보지는 않았는데요. 개발자들의 실력차이가 있는 것이지 나라마다의 특성은 없지 않을까요? 러시아 개발자들만해도 성능을 최적화한다거나 M/F를 잘 한다고 소문이 나있지만, 실상은 전혀 그렇지 않더라구요. 아직은 제가 그에 대해 깊이 생각해보지는 않았습니다. :)

Q. 미묘한 질문이긴 합니다만, 한국에선 요즘 인터넷 댓글 통제 문제로 온 나라가 시끄럽습니다. 어떻게 생각하세요?
A. 물론 강압적인 통제는 절대 반대합니다. 하지만 지금의 댓글(comment) 시스템은 뭔가 문제가 있기도 합니다. 제 블로그를 예로 들면, 저도 비슷한 일을 많이 겪고 있긴 합니다. 한 마디로 결론 내릴 수는 없지만, 뭔가에 반대의견을 올릴 때는 그저 수동적인 댓글을 달기보단 각자 블로그를 만들어 자신의 블로그에서 대항하는 의견을 피력하고 시스템이 정착되면 좋겠습니다. 


입니다. 전체 인터뷰 내용은 에이콘 블로그에 있습니다.
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


네번째 Hadoop Community 기술 세미나를 개최합니다.

시간: 10월 29일 (수) 오후 7시 ~ 9시
장소: 다음커뮤니케이션 양재사옥 동관 3층 회의실
http://info.daum.net/Daum/info/comingWay.do
인원: 50명 (선착순)
참가비: 없음 (저녁 아웃백 도시락 제공)

다음커뮤니케이션의 유성환께서 장소를 섭외해 주셨습니다.
특히 이번엔 저녁으로 아웃백 도시락을 제공한답니다. 대박~
감사합니다. ^^

이날 모임의 정해진 아젠다는 다음과 같습니다.
1. MapReduce를 이용한 Apache Log 분석 (박수혁, 오픈마루)
2. Hadoop Eclipse plugin (경민기, 건국대)
3. WebAppsCon 2008 플랫폼 관련 발표 요약 (한재선, 김형준, 윤종완)

이번 모임 역시 매우 알찬 내용으로 진행될 것 같습니다.
3번 WebAppsCon 2008 요약은 커뮤니티 멤버분들이 발표하신 내용을
간단히 요약해 각각 5~10분정도로 발표하는 것입니다.
WebAppsCon에 못 오신 분들을 위해 김형준님께서 제안해 주셨습니다.

추가로 발표하실 내용이 있으시면 댓글이나 메일로 알려주시면 바로 반영하겠습니다. ^^
(한재선, jshan@nexr.co.kr)

참석을 희망하시는 분은 웹싸이트에서 (http://www.hadoop.or.kr)
회원가입 후 댓글 남겨 주시기 바랍니다. (선착순입니다)
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


HBase 주 개발자 2명 come back

HBase는 powerset이라는 회사가 중심이 되어 개발되고 있었습니다. powerset에 있는 개발자인 Stack과 Jim이 주 개발자였습니다.
Powerset이 MS에 인수 당한 뒤로 프로젝트가 잘 진행되고 있지 않다라는 느낌을 받았는데 오늘 HBase에 메일링리스트에 다음과 같은 메일이 올라 왔네요.

We are happy to announce that we've been cleared to contribute patches again.  Looking forward to getting back to writing code.

Yours,

Jim and Stack.

계속 진행은 될 것 같은데 MS 아래서 하는 것이라서 믿음이 가질 않네요...
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


헉 300억 페이지에 대한 index와 link 데이터를 제공하는 사이트가 있습니다.

http://www.seomoz.org/blog/announcing-seomozs-index-of-the-web-and-the-launch-of-our-linkscape-tool

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


hadoop script language

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


공개된 대용량 테스트 데이터

대용량 데이터 처리에 대해 연구/학습 할때 부딪히는 문제중 하나가 테스트 데이터를 확보하는 것입니다.
사용자의 패턴을 분석하기 위해서는 로그 데이터가 필요하고 웹 페이지 분석을 위해서는 크롤된 웹 페이지가 필요한데 이들 데이터를 직접 모으기는 현실적으로 어렵습니다.
스탠포드 대학에서는 이런 연구과제에 활용할 목적으로 크롤러를 지속적으로 운영하고 있고 크롤된 데이터를 공개하고 있습니다. 웹 페이지는 약 1억 건 정도를 공개하고 있습니다.

http://dbpubs.stanford.edu:8091/~testbed/doc2/WebBase/

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


9월 Hadoop 사용자 모임

Hadoop 한국 사용자 모임 홈페이지가 오픈하였습니다.

http://www.hadoop.or.kr


많이 활성화 되었으면 하는 바램입니다.

더불어 9월 모임도 공지 되었네요.


시간: 9월 26일 (금) 오후 7시 ~ 9시
장소: 분당 서현 퍼스트타워 10층 교육장 (서현역3번출구)
인원: 50명 (선착순)
참가비: 없음 (저녁 샌드위치 제공)

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


Hadoop Resource Manager

Hadoop0.19에는 Job scheduler의 기능이 대폭 개편될 것 같습니다.
아직 소스 차원에서 확인해보지는 못했지만 다음과 같은 이슈들을 중심으로 작업이 진행되고 있는 것 같습니다.

https://issues.apache.org/jira/browse/HADOOP-3421
https://issues.apache.org/jira/browse/HADOOP-3445

사용자 삽입 이미지


크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


hadoop 0.16 -> 0.17 upgrade

Hadoop 0.16 -> 0.17로 업그레이드 했습니다.
업그레이드 절차는 다음과 같이 진행되었습니다.

0. 파일 시스템의 이미지 정보 백업 및 파일시스템 block 정보(웹 화면) 백업
1. Hadoop 0.17 설치
2. Hadoop0.16의 conf에 있는 hadoop-site.xml 파일을 0.17로 복사
   모든 노드에 hadoop-site.xml 복사
3. 0.16 stop-all
4. 0.17 start-all
   다음과 같은 장애 발생

File system image contains an old layout version -11.
An upgrade to version -13 is required.
Please restart NameNode with -upgrade option.


5. 0.17 stop-all 후 namenode 만 다시 수행

bin/hadoop namenode -upgrade

  namenode log에 다음과 같이 image upgade 완료 메세지가 나타남

2008-09-16 22:54:25,288 INFO org.apache.hadoop.dfs.Storage: Finalizing upgrade for storage directory /home/xxx/name.
   cur LV = -13; cur CTime = 1221570755507
2008-09-16 22:54:25,338 INFO org.apache.hadoop.dfs.Storage: Finalize upgrade for /home/xxx/name is complete.


6. 0.17 namenode kill
7. 0.17 전체 재 시작(start-all)
버전업이 된 후 DataNode가 처음 시작되면 block을 업그레이드 처리하는 동안은 block report를 하지 않습니다. 그리고 File system을 모니터링 하는 웹화면에 live node가 0으로 나타납니다.
이때 DataNode의 로그에는 다음과 같이 나타납니다.

2008-09-17 07:12:52,492 INFO org.apache.hadoop.dfs.Storage: Upgrading storage directory /hadoop/data1.
   old LV = -11; old CTime = 1207582378940.
   new LV = -13; new CTime = 1221570755507
2008-09-17 07:19:50,412 INFO org.apache.hadoop.dfs.Storage: Upgrade of /data1 is complete.
2008-09-17 07:19:50,427 INFO org.apache.hadoop.dfs.Storage: Upgrading storage directory /hadoop/data2.
   old LV = -11; old CTime = 1207582378940.
   new LV = -13; new CTime = 1221570755507


DataNode가 사용하는 모든 볼륨에 대해 이 작업이 완료되면 LiveNode에 하나씩 추가됩니다.
8. fsck 수행

bin/hadoop fsck /


9. 백업 받은 block 정보 비교
10. finalized 수행

bin/hadoop dfsadmin -finalizeUpgrade


모든 작업 수행하는데 1시간 정도 소요되었습니다.
DataNode의 볼륨 크기에 따라 업그레이드 시간은 다소 차이가 있을 것 같습니다.
 

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


Enterprise 시장에서의 mapreduce

최근 미국의 IT 관련 컬럼에서 엔터프라이즈 시장에서의 상업화된 MapReduce 관련 내용들이 자주 등장하고 있습니다.
기업의 대부분의 데이터는 관계형데이터베이스에 저장되어 있습니다. 따라서 엔터프라이즈 시장에서의 MapReduce하고 하면 당연히 관계형 데이터베이스에 저장된 데이터를 어떻게 MapReduce에 활용할 것인가가 핵심이 될 것입니다.
다음 URL을 보시면 벌써 이런 시도들이 이루어 졌고 제품들로 나오고 있는 것을 볼 수 있습니다.

http://www.greenplum.com/resources/mapreduce/

http://www.asterdata.com/product/mapreduce.html

사용자 삽입 이미지
[Greenplumn MapReduce Programming]
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


« Previous : 1 : 2 : 3 : 4 : 5 : 6 : 7 : 8 : 9 : ... 13 : Next »