html parsing 썸네일형 리스트형 html 본문 parsing HTML을 파싱하는 방법에는 여러가지가 있겠지만 단순히 html을 받아서 string단위로 잘라 필요한부분을 얻어내는 방법이 있을 것이고, SAX 파서나 DOM 파서로 파싱하는 방법이있을 건데, 그중에 Dom으로 파싱하는 방법중에 본문을 Readability에서 하는 방식으로 해보면 어떨까 하는 생각이 들었다. 아직 실험해보지는 않았지만 Readability는 본문 인식률이 매우 높은 것으로 보인다. tag내의 id와 class의 string을 보고 positive한지 negative한지를 판단하여 본문영역을 찾아 줄수 있다. 예를 들어 id나 class의 string에 article, post, main 등의 string이 등장한다면 본문이 될 가능성이 높아지고footer, sidebar, header.. 더보기 이전 1 다음