crawling을 할때 url normalize는 기본이다.
아래에는 어떤 url에 대해서 마지막 slash (/)에 대해서 붙이고 떼는 것에 대한 논의가 있다.
http://lucene.472066.n3.nabble.com/Terminating-slashes-in-URL-normalization-td624488.html
그 중에 이사람이 하는 말을 들어보면 붉은 부분의 스팩을 참고 하라고 한다.
Jukka Zitting
545 posts
|
http://www.ietf.org/rfc/rfc3986.txt
시간날때 자세히 봐야겠다.
정규화 관련해서 아래 link도 있었는데 한번 읽어보긴 해야겠다. 중복 제거 얘기 같던데 오늘은 시간이 없어서 일단 붙이기!!
http://www2006.org/programme/files/xhtml/p20/pp020-schonfeld/pp020-schonfeld.html
'Crawling' 카테고리의 다른 글
크롤링에서 문서의 최신성 (freshness) (0) | 2011.09.06 |
---|---|
Url redirection (0) | 2011.08.12 |
URL 파싱하기 (0) | 2011.08.09 |
url에 program으로 접근되지 않을 때 (0) | 2011.07.05 |
수집시에 HTTP 헤더의 if modified since (0) | 2011.06.24 |