본문 바로가기

crawler

크롤러 (crawler) 웹에서 크롤링 관련 설명을 체계적으로 해놓은 곳을 처음 찾았다. 영어이기는 하지만 재미있다. 아래는 내가 찾았다는 IBM의 크롤러관련 설명 페이지이다. http://publib.boulder.ibm.com/infocenter/discover/v9r1m0/index.jsp?topic=%2Fcom.ibm.discovery.es.ad.doc%2Fiiysacweb.htm 내 직업이 크롤링이지만 사실 크롤러에는 여러가지 종류가 있다. 흔히, 구글같이 큰~~ 웹 크롤러를 생각하겠지만, 이미지만 모으는 이미지 크롤러, 전화번호만 모으는 크롤러, 특정 사이트만 수집하는 크롤러 알고있는지 모르겠지만 사실 크롤링의 목적은 모아온 정보를 어떻게든 이용하기 위해서일 것이다. web crawler는 웹 페이지 검색을 위한 데이.. 더보기
크롤링에서 문서의 최신성 (freshness) 크롤링에서 문서의 freshness는 중요한 부분중의 하나이다. 어떤 site url을 방문 오늘 10:30 AM에 방문했다고 하자 하지만 그 문서(web page)가 10:50 AM에 변경되었다면 어떻게 될까? 즉, 우리가 방문했던 결과는 예전이 되는 것이다. 만약 그 문서가 web상에서 사라졌다면 우리는 없는 문서를 가지고 있는 것이다. web의 content들은 보통 create,update,delete의 동작을 반복한다. 따라서 문서가 생겼는지, 변경되었는지, 삭제되었는지를 빨리 알아내는 것은 매우 중요하다고 할 수 있다. 크롤러는 새로 생긴 문서를 최대한 빨리 발견해야하고 변경된 문서를 빨리 방문해 local에 저장된 문서의 최신성을 보장해주며 삭제된 문서를 빨리 발견하여야 한다. 이 중에서 변.. 더보기
url에 program으로 접근되지 않을 때 1. User-agent를 명시했는지 확인한다. 어떤 site는 User-agent를 명시하지 않을 경우 실제 내용을 보내주지 않은다. 이런 경우는 많으므로 기본적으로 user agent를 넣기로 하자 user-agent는 http://en.wikipedia.org/wiki/User_agent 위키피디아 페이지를 읽어 보면 된다. it typically identifies itself, its application type,operating system, software vendor, or software revision, by submitting a characteristic identification string to its operating peer. 2. ip block 상대방이 자신의 ip 혹은.. 더보기
수집시에 HTTP 헤더의 if modified since 지나가다가 구글(google)의 웹마스터 가이드를 보게됬는데 크롤링이 잘되고 파싱이 잘 되려면 어떻게 html이 작성되면 좋을 까에 대한 이야기가 있다. http://www.google.com/support/webmasters/bin/answer.py?answer=35769#1 웹서버가 If-Modified-Since HTTP 헤더를 지원하는지 확인합니다. 이 기능을 사용하면 웹서버에서 가장 최근 크롤링 이후 사이트 콘텐츠가 변경되었는지 여부를 자동적으로 Google에 전달합니다. 이렇게 되면 낭비되는 전송용량과 전반적인 비용을 절약하실 수 있습니다. 라는 부분이 있다. if modified since를 지원하는 서버를 사용할 경우. header에 if modified since에 적어준 시간 이후로 페.. 더보기
url normalize (url 정규화) crawling을 할때 url normalize는 기본이다. 아래에는 어떤 url에 대해서 마지막 slash (/)에 대해서 붙이고 떼는 것에 대한 논의가 있다. http://lucene.472066.n3.nabble.com/Terminating-slashes-in-URL-normalization-td624488.html 그 중에 이사람이 하는 말을 들어보면 붉은 부분의 스팩을 참고 하라고 한다. Jukka Zitting Aug 05, 2006; 03:41pmRe: Terminating slashes in URL normalization Reply | Threaded | More 545 posts Hi, On 8/5/06, Chris Schneider wrote: > Given this, shouldn'.. 더보기