SeouliteLab

파이썬에서 HTML 파싱하기: html5lib 모듈 활용법 본문

카테고리 없음

파이썬에서 HTML 파싱하기: html5lib 모듈 활용법

Seoulite Lab 2024. 4. 17. 08:40

HTML은 웹 페이지의 구조와 콘텐츠를 정의하는 마크업 언어입니다. 파이썬에서는 html5lib 모듈을 사용하여 HTML을 파싱하고 조작할 수 있습니다. 이 모듈은 HTML5 표준을 준수하며, 파이썬에서 HTML을 효과적으로 처리하는 데 사용됩니다. 이제 몇 가지 예제를 통해 html5lib 모듈의 활용법을 알아보겠습니다.

예제 1: HTML 파싱하기

import html5lib

# HTML 문서 파싱하기
html_doc = "<html><body><h1>Hello, HTML!</h1></body></html>"
tree = html5lib.parse(html_doc)

# 파싱된 HTML 트리 출력하기
print(tree)

이 예제에서는 html5lib 모듈을 사용하여 HTML 문서를 파싱하는 방법을 보여줍니다. parse 함수를 사용하여 HTML을 파싱하고, 파싱된 HTML 트리를 출력합니다.

예제 2: HTML 요소 선택하기

import html5lib

# HTML 문서 파싱하기
html_doc = "<html><body><h1>Hello, HTML!</h1><p>Welcome to HTML parsing with html5lib.</p></body></html>"
tree = html5lib.parse(html_doc)

# 특정 요소 선택하기
paragraph = tree.find(".//p")

# 선택된 요소의 텍스트 출력하기
print(paragraph.text)

이 예제에서는 html5lib 모듈을 사용하여 HTML 문서에서 특정 요소를 선택하는 방법을 보여줍니다. find 함수를 사용하여 <p> 태그를 선택하고, 선택된 요소의 텍스트를 출력합니다.

예제 3: HTML 속성 접근하기

import html5lib

# HTML 문서 파싱하기
html_doc = "<html><body><a href='https://www.example.com'>Example Link</a></body></html>"
tree = html5lib.parse(html_doc)

# 링크 요소 선택하기
link = tree.find(".//a")

# href 속성 값 가져오기
href = link.get("href")

# href 속성 값 출력하기
print("링크 URL:", href)

이 예제에서는 html5lib 모듈을 사용하여 HTML 문서에서 링크 요소의 속성에 접근하는 방법을 보여줍니다. get 메서드를 사용하여 href 속성 값을 가져와 출력합니다.