网站首页 > 知识剖析 正文
网页解析神器BeautifulSoup4,它让你轻松处理 HTML 页面,提取你想要的数据,是网页爬虫入门的第一步!
beautifulsoup4 是一个用于 HTML 和 XML 解析的 Python 库。相比正则表达式,它更智能、更优雅,能让你像操作树结构一样操作网页内容。
先看效果!
安装方式
pip install beautifulsoup4
推荐搭配使用 lxml 解析器:
pip install lxml
学习本来就不是一蹴而就的事,不过只要你肯练、敢用,坚持一阵子,你一定能看到变化!
入门示例
下面是一个完整的解析示例:
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@Project :Fish
@File :D19.py
@Date :2025/6/18 19:00
@Author : malijie
"""
from bs4 import BeautifulSoup
with open('test.html', 'r', encoding='utf-8') as f:
html = f.read()
soup = BeautifulSoup(html, 'html.parser')
print(f"string:\t{soup.title.string}")
print(f"text:\t{soup.h1.text}")
print(f"class:\t{soup.p['class']}")
print(f"href:\t{soup.a['href']}")
用一句话总结:解析 HTML,像写剧本一样简单!
常用方法速查表
功能 | 示例代码 | 说明 |
查找单个元素 | soup.find('p') | 查找第一个 <p> 标签 |
查找多个元素 | soup.find_all('a') | 查找所有 <a> 标签 |
获取属性值 | tag['href'] | 提取超链接地址 |
获取文本内容 | tag.text / tag.string | 提取纯文本 |
使用选择器 | soup.select('.desc') | 类似 jQuery 的选择器 |
获取父元素 | tag.parent | 获取标签的父级元素 |
遍历子元素 | tag.children | 获取标签的直接子元素 |
使用建议
- html.parser 是 Python 内置的解析器,无需额外安装,但功能有限。
- 推荐使用 lxml,速度更快、容错更强,下期重点介绍!
实战小练习
解析ycombinator页面中的问题标题:
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@Project :Fish
@File :D19.py
@Date :2025/6/18 19:00
@Author : malijie
"""
import requests
from bs4 import BeautifulSoup
url = "https://news.ycombinator.com/"
headers = {"User-Agent": "Mozilla/5.0"}
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'lxml')
# 提取每篇新闻标题和链接
articles = soup.select('.titleline > a')
for i, a in enumerate(articles, 1):
title = a.text.strip()
href = a['href']
print(f"{i}. {title} {href}")
输出热门话题,几行代码就搞定!
小坑提示
- 有些网页是动态加载,BeautifulSoup 无法处理 JavaScript 渲染的内容,这时可以用 Selenium 或 Playwright。
下期预告
《每天一个 Python 库:lxml —— 速度与强度并存的 HTML 解析器》
点赞关注不迷路,不错过每一期实战技巧!
后续还有更多自动化测试经验分享~评论区欢迎唠嗑交流!
点头像,发现更多精彩内容!
- 上一篇: 复制链接(复制链接怎么提取视频)
- 下一篇: 常见的10种WEB页面元素定位方法及其特点
猜你喜欢
- 2025-07-24 Python爬虫利器:requests-html 深度探究
- 2025-07-24 让编辑器支持word的复制黏贴,支持截屏的黏贴
- 2025-07-24 常见的10种WEB页面元素定位方法及其特点
- 2025-07-24 复制链接(复制链接怎么提取视频)
- 2025-07-24 給她每日一封暖心小邮件~(每天的一封信)
- 2025-07-24 快速理解析语言及解析工具(解析语法的软件)
- 最近发表
- 标签列表
-
- xml (46)
- css animation (57)
- array_slice (60)
- htmlspecialchars (54)
- position: absolute (54)
- datediff函数 (47)
- array_pop (49)
- jsmap (52)
- toggleclass (43)
- console.time (63)
- .sql (41)
- ahref (40)
- js json.parse (59)
- html复选框 (60)
- css 透明 (44)
- css 颜色 (47)
- php replace (41)
- css nth-child (48)
- min-height (40)
- xml schema (44)
- css 最后一个元素 (46)
- location.origin (44)
- table border (49)
- html tr (40)
- video controls (49)