지나가다가 구글(google)의 웹마스터 가이드를 보게됬는데 크롤링이 잘되고 파싱이 잘 되려면 어떻게 html이 작성되면 좋을 까에 대한 이야기가 있다.
http://www.google.com/support/webmasters/bin/answer.py?answer=35769#1
웹서버가 If-Modified-Since HTTP 헤더를 지원하는지 확인합니다. 이 기능을 사용하면 웹서버에서 가장 최근 크롤링 이후 사이트 콘텐츠가 변경되었는지 여부를 자동적으로 Google에 전달합니다. 이렇게 되면 낭비되는 전송용량과 전반적인 비용을 절약하실 수 있습니다.
라는 부분이 있다.
if modified since를 지원하는 서버를 사용할 경우.
header에 if modified since에 적어준 시간 이후로 페이지의 변경이 없었을 경우에 header만을 넘겨 준다.
더 자세한 이야기는 이사람에게 들어 볼 수 있다.
http://www.seoish.com/what-is-a-if-modified-since-http-header/#respond
예전에 옆에 팀에 있던 계발 잘하시던 분과 눈이 닮았는데 말투도 아주 맘에 든다.
예전에 네이트 지식에도 이런 질문이 있었다.
http://discussion.dreamhost.com/thread-6497-post-6510.html
자신의 site가 if modified since를 지원하는지 확인해 보쟈
http://www.feedthebot.com/tools/if-modified/
이 사이트에 가서 url을 입력해 보면 지원하는지 알 수 있다.
더 찾아 보니 E tag라는 것에 대해서도 나와 있다. 한번 조사해 봐야겠다.
http://developer.yahoo.com/performance/rules.html#etags
그래 결국 위키에 있네 ..
http://en.wikipedia.org/wiki/HTTP_ETag
이 아래에다가 페이지를 넣으면
http://www.microsoft.com/search/tools/default.aspx
if modified since를 지원하는지, 그리고 etag를 지원하는지 볼 수 있다.
이제 자야겠다;;
'Crawling' 카테고리의 다른 글
크롤링에서 문서의 최신성 (freshness) (0) | 2011.09.06 |
---|---|
Url redirection (0) | 2011.08.12 |
URL 파싱하기 (0) | 2011.08.09 |
url에 program으로 접근되지 않을 때 (0) | 2011.07.05 |
url normalize (url 정규화) (0) | 2011.03.29 |