crawling freshness 썸네일형 리스트형 크롤링에서 문서의 최신성 (freshness) 크롤링에서 문서의 freshness는 중요한 부분중의 하나이다. 어떤 site url을 방문 오늘 10:30 AM에 방문했다고 하자 하지만 그 문서(web page)가 10:50 AM에 변경되었다면 어떻게 될까? 즉, 우리가 방문했던 결과는 예전이 되는 것이다. 만약 그 문서가 web상에서 사라졌다면 우리는 없는 문서를 가지고 있는 것이다. web의 content들은 보통 create,update,delete의 동작을 반복한다. 따라서 문서가 생겼는지, 변경되었는지, 삭제되었는지를 빨리 알아내는 것은 매우 중요하다고 할 수 있다. 크롤러는 새로 생긴 문서를 최대한 빨리 발견해야하고 변경된 문서를 빨리 방문해 local에 저장된 문서의 최신성을 보장해주며 삭제된 문서를 빨리 발견하여야 한다. 이 중에서 변.. 더보기 이전 1 다음