Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 특약
- 심장질환
- 자바스크립트
- 수수료
- 프론트엔드
- javascript
- python
- 사망
- 뇌출혈
- 교보
- 중도인출
- jQuery
- 추가납입
- 웹개발
- PythonProgramming
- Vue.js
- 리스트
- 프로그래밍
- 가입
- 문자열
- 변환
- 보험
- 교보생명
- 급성심근경색증
- Java
- 인출수수료
- 파이썬
- 보험료
- 납입
- 코딩
Archives
- Today
- Total
SeouliteLab
파이썬에서 HTML 파싱하기: html5lib 모듈 활용법 본문
HTML은 웹 페이지의 구조와 콘텐츠를 정의하는 마크업 언어입니다. 파이썬에서는 html5lib 모듈을 사용하여 HTML을 파싱하고 조작할 수 있습니다. 이 모듈은 HTML5 표준을 준수하며, 파이썬에서 HTML을 효과적으로 처리하는 데 사용됩니다. 이제 몇 가지 예제를 통해 html5lib 모듈의 활용법을 알아보겠습니다.
예제 1: HTML 파싱하기
import html5lib
# HTML 문서 파싱하기
html_doc = "<html><body><h1>Hello, HTML!</h1></body></html>"
tree = html5lib.parse(html_doc)
# 파싱된 HTML 트리 출력하기
print(tree)
이 예제에서는 html5lib 모듈을 사용하여 HTML 문서를 파싱하는 방법을 보여줍니다. parse 함수를 사용하여 HTML을 파싱하고, 파싱된 HTML 트리를 출력합니다.
예제 2: HTML 요소 선택하기
import html5lib
# HTML 문서 파싱하기
html_doc = "<html><body><h1>Hello, HTML!</h1><p>Welcome to HTML parsing with html5lib.</p></body></html>"
tree = html5lib.parse(html_doc)
# 특정 요소 선택하기
paragraph = tree.find(".//p")
# 선택된 요소의 텍스트 출력하기
print(paragraph.text)
이 예제에서는 html5lib 모듈을 사용하여 HTML 문서에서 특정 요소를 선택하는 방법을 보여줍니다. find 함수를 사용하여 <p>
태그를 선택하고, 선택된 요소의 텍스트를 출력합니다.
예제 3: HTML 속성 접근하기
import html5lib
# HTML 문서 파싱하기
html_doc = "<html><body><a href='https://www.example.com'>Example Link</a></body></html>"
tree = html5lib.parse(html_doc)
# 링크 요소 선택하기
link = tree.find(".//a")
# href 속성 값 가져오기
href = link.get("href")
# href 속성 값 출력하기
print("링크 URL:", href)
이 예제에서는 html5lib 모듈을 사용하여 HTML 문서에서 링크 요소의 속성에 접근하는 방법을 보여줍니다. get 메서드를 사용하여 href 속성 값을 가져와 출력합니다.