공개된 대용량 테스트 데이터

대용량 데이터 처리에 대해 연구/학습 할때 부딪히는 문제중 하나가 테스트 데이터를 확보하는 것입니다.
사용자의 패턴을 분석하기 위해서는 로그 데이터가 필요하고 웹 페이지 분석을 위해서는 크롤된 웹 페이지가 필요한데 이들 데이터를 직접 모으기는 현실적으로 어렵습니다.
스탠포드 대학에서는 이런 연구과제에 활용할 목적으로 크롤러를 지속적으로 운영하고 있고 크롤된 데이터를 공개하고 있습니다. 웹 페이지는 약 1억 건 정도를 공개하고 있습니다.

http://dbpubs.stanford.edu:8091/~testbed/doc2/WebBase/

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


Trackback URL : http://www.jaso.co.kr/trackback/293

Leave a comment
« Previous : 1 : ... 141 : 142 : 143 : 144 : 145 : 146 : 147 : 148 : 149 : ... 388 : Next »