nutch 0.8 버전에서 crawl 시 주의

또 한번의 삽질....
nutch 0.8 버전에서 매뉴얼대로 crawl을 아무리 해도 아무런 데이터도 나타나지 않아서 한참을 헤매다가 문득 버전을 낮춰보자는 생각에 0.7을 다운로드 받아 crawl 해보니까 잘 된다.... 이거 때문에 몇시간은 삽질...

이유를 찾아보고 있지만 현재까지는 단순히 환경설정의 문제인가 생각된다. 두 버전의 nutch-default.xml 파일에 있는 "http.agent.name", "http.robots.agents" 속성이 틀린데 이것때문에 매뉴얼에서 제시한 crawl 대상 url인 "http://lucene.apache.org"에 대해 crawl을 못하는 것이 아닌가 추측해 본다.
우쒸.... 이런게 바뀌었으면 매뉴얼도 바꿔야 하는거 아닌가?
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


Trackback URL : http://www.jaso.co.kr/trackback/109

Leave a comment
« Previous : 1 : ... 307 : 308 : 309 : 310 : 311 : 312 : 313 : 314 : 315 : ... 388 : Next »