본문 바로가기

크롤러

크롤러 (crawler) 웹에서 크롤링 관련 설명을 체계적으로 해놓은 곳을 처음 찾았다. 영어이기는 하지만 재미있다. 아래는 내가 찾았다는 IBM의 크롤러관련 설명 페이지이다. http://publib.boulder.ibm.com/infocenter/discover/v9r1m0/index.jsp?topic=%2Fcom.ibm.discovery.es.ad.doc%2Fiiysacweb.htm 내 직업이 크롤링이지만 사실 크롤러에는 여러가지 종류가 있다. 흔히, 구글같이 큰~~ 웹 크롤러를 생각하겠지만, 이미지만 모으는 이미지 크롤러, 전화번호만 모으는 크롤러, 특정 사이트만 수집하는 크롤러 알고있는지 모르겠지만 사실 크롤링의 목적은 모아온 정보를 어떻게든 이용하기 위해서일 것이다. web crawler는 웹 페이지 검색을 위한 데이.. 더보기
수집시에 HTTP 헤더의 if modified since 지나가다가 구글(google)의 웹마스터 가이드를 보게됬는데 크롤링이 잘되고 파싱이 잘 되려면 어떻게 html이 작성되면 좋을 까에 대한 이야기가 있다. http://www.google.com/support/webmasters/bin/answer.py?answer=35769#1 웹서버가 If-Modified-Since HTTP 헤더를 지원하는지 확인합니다. 이 기능을 사용하면 웹서버에서 가장 최근 크롤링 이후 사이트 콘텐츠가 변경되었는지 여부를 자동적으로 Google에 전달합니다. 이렇게 되면 낭비되는 전송용량과 전반적인 비용을 절약하실 수 있습니다. 라는 부분이 있다. if modified since를 지원하는 서버를 사용할 경우. header에 if modified since에 적어준 시간 이후로 페.. 더보기