Hike News
Hike News

html에서 xpath를 사용하는 방법

Person:

  • 웹크롤링을 위한 xpath에 대한 설명 및 예제 10개만 보여줘

ChatGPT:

  • 웹 크롤링을 위한 XPath는 XML 문서의 요소를 선택하기 위한 언어로, 주로 웹 페이지에서 데이터를 추출하는 데 사용됩니다. XPath는 웹 페이지의 구조를 분석하여 원하는 정보를 추출하는 데 도움이 됩니다. 아래는 XPath의 설명과 예제 10개입니다:

XPath 구조:

  • /: 문서의 최상위 루트를 나타냅니다.
  • //: 현재 노드 아래에 있는 모든 노드를 선택합니다.
  • elementName: 특정 요소 이름을 나타냅니다.
  • @attributeName: 특정 속성 이름을 나타냅니다.
  • [predicate]: 조건을 기반으로 요소를 필터링합니다.

XPath 예제 10개:

  1. 문서의 모든 링크 선택:
1
2

//a
  1. 특정 클래스를 가진 모든 요소 선택:
1
2

//*[contains(@class, 'classname')]
  1. 특정 ID를 가진 요소 선택:
1
2

//*[@id='elementid']
  1. 첫 번째 <div> 요소 선택:
1
2

//div[1]
  1. 특정 속성 값을 가진 요소 선택:
1
2

//*[@attribute='value']
  1. 특정 경로의 요소 선택:
1
2

//div[@class='parent']/span[@class='child']
  1. 특정 속성을 가진 특정 요소의 텍스트 선택:
1
2

//a[@class='link']/text()
  1. 부모 요소의 모든 자식 요소 선택:
1
2

//parent/child/*
  1. 다음 형제 요소 선택:
1
2

//element/following-sibling::sibling
  1. 마지막 요소 선택:
1
2

(//element)[last()]

웹 페이지의 구조와 요구 사항에 따라 XPath를 조합하여 원하는 데이터를 추출할 수 있습니다. 하지만 웹 사이트의 구조가 변경될 수 있으므로 XPath도 조정이 필요할 수 있습니다.