본문 바로가기

Crawling

수집시에 HTTP 헤더의 if modified since


지나가다가 구글(google)의 웹마스터 가이드를 보게됬는데 크롤링이 잘되고 파싱이 잘 되려면 어떻게 html이 작성되면 좋을 까에 대한 이야기가 있다. 
http://www.google.com/support/webmasters/bin/answer.py?answer=35769#1

웹서버가 If-Modified-Since HTTP 헤더를 지원하는지 확인합니다. 이 기능을 사용하면 웹서버에서 가장 최근 크롤링 이후 사이트 콘텐츠가 변경되었는지 여부를 자동적으로 Google에 전달합니다. 이렇게 되면 낭비되는 전송용량과 전반적인 비용을 절약하실 수 있습니다.
라는 부분이 있다. 

if modified since를 지원하는 서버를 사용할 경우. 
header에 if modified since에 적어준 시간 이후로 페이지의 변경이 없었을 경우에 header만을 넘겨 준다. 

더 자세한 이야기는 이사람에게 들어 볼 수 있다. 
http://www.seoish.com/what-is-a-if-modified-since-http-header/#respond

예전에 옆에 팀에 있던 계발 잘하시던 분과 눈이 닮았는데 말투도 아주 맘에 든다.


예전에 네이트 지식에도 이런 질문이 있었다.
http://discussion.dreamhost.com/thread-6497-post-6510.html

자신의 site가 if modified since를 지원하는지 확인해 보쟈 
http://www.feedthebot.com/tools/if-modified/
이 사이트에 가서 url을 입력해 보면 지원하는지 알 수 있다.  


더 찾아 보니 E tag라는 것에 대해서도 나와 있다. 한번 조사해 봐야겠다.
http://developer.yahoo.com/performance/rules.html#etags 

그래 결국 위키에 있네 ..
http://en.wikipedia.org/wiki/HTTP_ETag 

이 아래에다가 페이지를 넣으면 
http://www.microsoft.com/search/tools/default.aspx
if modified since를 지원하는지, 그리고 etag를 지원하는지 볼 수 있다. 

이제 자야겠다;; 

'Crawling' 카테고리의 다른 글

크롤링에서 문서의 최신성 (freshness)  (0) 2011.09.06
Url redirection  (0) 2011.08.12
URL 파싱하기  (0) 2011.08.09
url에 program으로 접근되지 않을 때  (0) 2011.07.05
url normalize (url 정규화)  (0) 2011.03.29