Notice
Recent Posts
Recent Comments
Link
SeouliteLab
파이썬에서 HTML 파싱하기: html5lib 모듈 활용법 본문
HTML은 웹 페이지의 구조와 콘텐츠를 정의하는 마크업 언어입니다. 파이썬에서는 html5lib 모듈을 사용하여 HTML을 파싱하고 조작할 수 있습니다. 이 모듈은 HTML5 표준을 준수하며, 파이썬에서 HTML을 효과적으로 처리하는 데 사용됩니다. 이제 몇 가지 예제를 통해 html5lib 모듈의 활용법을 알아보겠습니다.
예제 1: HTML 파싱하기
import html5lib
# HTML 문서 파싱하기
html_doc = "<html><body><h1>Hello, HTML!</h1></body></html>"
tree = html5lib.parse(html_doc)
# 파싱된 HTML 트리 출력하기
print(tree)
이 예제에서는 html5lib 모듈을 사용하여 HTML 문서를 파싱하는 방법을 보여줍니다. parse 함수를 사용하여 HTML을 파싱하고, 파싱된 HTML 트리를 출력합니다.
예제 2: HTML 요소 선택하기
import html5lib
# HTML 문서 파싱하기
html_doc = "<html><body><h1>Hello, HTML!</h1><p>Welcome to HTML parsing with html5lib.</p></body></html>"
tree = html5lib.parse(html_doc)
# 특정 요소 선택하기
paragraph = tree.find(".//p")
# 선택된 요소의 텍스트 출력하기
print(paragraph.text)
이 예제에서는 html5lib 모듈을 사용하여 HTML 문서에서 특정 요소를 선택하는 방법을 보여줍니다. find 함수를 사용하여 <p>
태그를 선택하고, 선택된 요소의 텍스트를 출력합니다.
예제 3: HTML 속성 접근하기
import html5lib
# HTML 문서 파싱하기
html_doc = "<html><body><a href='https://www.example.com'>Example Link</a></body></html>"
tree = html5lib.parse(html_doc)
# 링크 요소 선택하기
link = tree.find(".//a")
# href 속성 값 가져오기
href = link.get("href")
# href 속성 값 출력하기
print("링크 URL:", href)
이 예제에서는 html5lib 모듈을 사용하여 HTML 문서에서 링크 요소의 속성에 접근하는 방법을 보여줍니다. get 메서드를 사용하여 href 속성 값을 가져와 출력합니다.