공개된 대용량 테스트 데이터
- Posted at 2008/10/02 11:34
- Filed under project/lucene_hadoop
대용량 데이터 처리에 대해 연구/학습 할때 부딪히는 문제중 하나가 테스트 데이터를 확보하는 것입니다.
사용자의 패턴을 분석하기 위해서는 로그 데이터가 필요하고 웹 페이지 분석을 위해서는 크롤된 웹 페이지가 필요한데 이들 데이터를 직접 모으기는 현실적으로 어렵습니다.
스탠포드 대학에서는 이런 연구과제에 활용할 목적으로 크롤러를 지속적으로 운영하고 있고 크롤된 데이터를 공개하고 있습니다. 웹 페이지는 약 1억 건 정도를 공개하고 있습니다.
http://dbpubs.stanford.edu:8091/~testbed/doc2/WebBase/
Posted by 김형준
- Response
- No Trackback , No Comment
Trackback URL : http://www.jaso.co.kr/trackback/293





