nutch 0.8 버전에서 crawl 시 주의
- Posted at 2006/09/26 09:35
- Filed under project/lucene_hadoop
또 한번의 삽질....
nutch 0.8 버전에서 매뉴얼대로 crawl을 아무리 해도 아무런 데이터도 나타나지 않아서 한참을 헤매다가 문득 버전을 낮춰보자는 생각에 0.7을 다운로드 받아 crawl 해보니까 잘 된다.... 이거 때문에 몇시간은 삽질...
이유를 찾아보고 있지만 현재까지는 단순히 환경설정의 문제인가 생각된다. 두 버전의 nutch-default.xml 파일에 있는 "http.agent.name", "http.robots.agents" 속성이 틀린데 이것때문에 매뉴얼에서 제시한 crawl 대상 url인 "http://lucene.apache.org"에 대해 crawl을 못하는 것이 아닌가 추측해 본다.
우쒸.... 이런게 바뀌었으면 매뉴얼도 바꿔야 하는거 아닌가?
nutch 0.8 버전에서 매뉴얼대로 crawl을 아무리 해도 아무런 데이터도 나타나지 않아서 한참을 헤매다가 문득 버전을 낮춰보자는 생각에 0.7을 다운로드 받아 crawl 해보니까 잘 된다.... 이거 때문에 몇시간은 삽질...
이유를 찾아보고 있지만 현재까지는 단순히 환경설정의 문제인가 생각된다. 두 버전의 nutch-default.xml 파일에 있는 "http.agent.name", "http.robots.agents" 속성이 틀린데 이것때문에 매뉴얼에서 제시한 crawl 대상 url인 "http://lucene.apache.org"에 대해 crawl을 못하는 것이 아닌가 추측해 본다.
우쒸.... 이런게 바뀌었으면 매뉴얼도 바꿔야 하는거 아닌가?
Posted by 김형준
- Response
- No Trackback , No Comment
Trackback URL : http://www.jaso.co.kr/trackback/109






