본문 바로가기


url normalize (url 정규화)

crawling을 할때 url normalize는 기본이다. 

아래에는 어떤 url에 대해서 마지막 slash (/)에 대해서 붙이고 떼는 것에 대한 논의가 있다. 

그 중에 이사람이 하는 말을 들어보면 붉은 부분의 스팩을 참고 하라고 한다. 

 Jukka Zitting

Re: Terminating slashes in URL normalization

Reply | Threaded | More    star
Jukka Zitting
545 posts

On 8/5/06, Chris Schneider <[hidden email]> wrote: 
> Given this, shouldn't the default URL normalizer just add a slash to 
> the end of a URL that doesn't have a file extension? 

Section 6.2.4 of RFC 3986 suggests that a crawler could do such a 
normalization if it detects that 
http://mail.python.org/mailman/listinfo redirects to 
http://mail.python.org/mailman/listinfo/. I think just blindly adding 
the slash without knowing about the redirection is incorrect. 


Jukka Zitting 

Yukatan - http://yukatan.fi/ - [hidden email] 
Software craftsmanship, JCR consulting, and Java development 
실제로 검색해서 보면 url normalize에 대한 스팩이 정의 되어있다.

시간날때 자세히 봐야겠다. 

정규화 관련해서 아래 link도 있었는데 한번 읽어보긴 해야겠다. 중복 제거 얘기 같던데 오늘은 시간이 없어서 일단 붙이기!! 

'Crawling' 카테고리의 다른 글

크롤링에서 문서의 최신성 (freshness)  (0) 2011.09.06
Url redirection  (0) 2011.08.12
URL 파싱하기  (0) 2011.08.09
url에 program으로 접근되지 않을 때  (0) 2011.07.05
수집시에 HTTP 헤더의 if modified since  (0) 2011.06.24