본문 바로가기

프로그래밍

DOMDocument, DOMXpath를 이용한 Scraping

반응형

 

아직 Xpath 초짜인 나에겐 코드 따기가 쉬운 일이 아니었다.

 

관련 자료를 검색하던중 PHP스쿨에서 AutoPager를 이용한 방법도 보고 참고하였지만

 

그것만으로 잘 해결되지 않아 검색하던 중 다른 유사한 방법이 있어 정리해본다.

 

이 방법 또한 Aupager와 같이 파이어폭스 플러그인 Xpather를 이용하는 방법이다.

 

1.

Xpather 플러그인 설치: https://addons.mozilla.org/en-US/firefox/addon/1192/

 

2.

HTML 페이지에서 원하는 부분에 놓고 우클릭 후 Click Show in Xpather를 클릭.

 

3.

가져온 코드가 아래와 같다면

◦Result #1: /html/body[@id='gsr']/div[@id='res']/div/ol/li[1]/h3/a
◦Result #2: /html/body[@id='gsr']/div[@id='res']/div/ol/li[2]/h3/a

 

이것을 변경하여 적용하면 된다.

/html/body[@id='gsr']/div[@id='res']/div/ol/li/h3/a/@href

 

출처: http://blog.5ubliminal.com/posts/domdocument-domxpath-scraping-google-search-results/

 

Autopager를 이용 방법: http://www.phpschool.com/gnuboard4/bbs/board.php?bo_table=tipntech&wr_id=71144&page=2

Xpath강좌: http://blog.naver.com/hacker1420?Redirect=Log&logNo=120106375567

DOMXpath: http://phpman-jp.tistory.com/5564

 

정규식관련자료:

http://kr.php.net/manual/en/reference.pcre.pattern.syntax.php

http://forums.devshed.com/php-development-5/preg-match-multi-line-351283.html

http://www.weberdev.com/get_example-4625.html

http://www.phpfreaks.com/forums/index.php?topic=277776.0


추가자료:

http://www.w3schools.com/xpath/xpath_syntax.asp

반응형