본문 바로가기

Crawling

url normalize (url 정규화)


crawling을 할때 url normalize는 기본이다. 

아래에는 어떤 url에 대해서 마지막 slash (/)에 대해서 붙이고 떼는 것에 대한 논의가 있다. 
http://lucene.472066.n3.nabble.com/Terminating-slashes-in-URL-normalization-td624488.html 

그 중에 이사람이 하는 말을 들어보면 붉은 부분의 스팩을 참고 하라고 한다. 



 Jukka Zitting

Re: Terminating slashes in URL normalization

Reply | Threaded | More    star
Jukka Zitting
545 posts
Hi, 

On 8/5/06, Chris Schneider <[hidden email]> wrote: 
> Given this, shouldn't the default URL normalizer just add a slash to 
> the end of a URL that doesn't have a file extension? 

Section 6.2.4 of RFC 3986 suggests that a crawler could do such a 
normalization if it detects that 
http://mail.python.org/mailman/listinfo redirects to 
http://mail.python.org/mailman/listinfo/. I think just blindly adding 
the slash without knowing about the redirection is incorrect. 

BR, 

Jukka Zitting 

-- 
Yukatan - http://yukatan.fi/ - [hidden email] 
Software craftsmanship, JCR consulting, and Java development 
실제로 검색해서 보면 url normalize에 대한 스팩이 정의 되어있다.
http://www.ietf.org/rfc/rfc3986.txt

시간날때 자세히 봐야겠다. 

정규화 관련해서 아래 link도 있었는데 한번 읽어보긴 해야겠다. 중복 제거 얘기 같던데 오늘은 시간이 없어서 일단 붙이기!! 
http://www2006.org/programme/files/xhtml/p20/pp020-schonfeld/pp020-schonfeld.html



'Crawling' 카테고리의 다른 글

크롤링에서 문서의 최신성 (freshness)  (0) 2011.09.06
Url redirection  (0) 2011.08.12
URL 파싱하기  (0) 2011.08.09
url에 program으로 접근되지 않을 때  (0) 2011.07.05
수집시에 HTTP 헤더의 if modified since  (0) 2011.06.24