网站首页 > 知识剖析 正文
一.前言
我们在学习python爬虫的时候,数据提取是一个常见的任务。我们一般使用正则表达式,lxml 等提取我们需要的数据,今天我们介绍一个新的库beautifulSoup4,使用它您可以从HTML和XML文件中提取所需的信息。
什么是beautifulsoup4?
beautifulSoup4是一个用于解析HTML和XML文档的Python库。它使提取数据变得简单,快速且可靠。它允许您使用简单的Python语法来搜索,修改和导航网页结构
二.基本用法
1.安装
pip install beautifulsoup4
2.导入库
from bs4 import BeautifulSoup
3.创建BeautifulSoup对象
from bs4 import BeautifulSoup
import requests # 导入requests库,这个库用来发送请求
from lxml import etree # 这个用来解析html的
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'}
# 发送请求
html_doc= requests.get('https://bing.ioliu.cn/',headers=headers)
soup = BeautifulSoup(html_doc, 'html.parser') # html_doc是我们要解析的HTML文档的字符串形式
第一个参数是要解析的HTML文档的字符串形式,第二个参数是解析器的选择,常用的有'html.parser'、'lxml'和'xml'等
4.查找元素
通过BeautifulSoup对象,我们可以使用各种方法来查找网页中的特定元素。以下是一些常见的查找方法:
a.使用标签名查找元素:soup.tag_name
>>> print(soup.input)
<input name="ie" type="hidden" value="utf-8"/>
b.使用类名查找元素:soup.find('class', 'class_name')
>>> print(soup.find("span",class_="tools")) # 第一个是标签名字,第二个class name
<span class="tools"><span id="mHolder"><div id="mCon"><span>
输入法</span></div><ul id="mMenu"><li><a href="javascript:;" name="ime_hw">
手写</a></li><li><a href="javascript:;" name="ime_py">
拼音</a></li><li class="ln"></li><li><a href="javascript:;" name="ime_cl">
关闭</a></li></ul></span></span>
>>>
c.使用ID查找元素:soup.find('id', 'id_name')
>>> print(soup.find("input",id = "su"))
<input class="bg s_btn" id="su" type="submit" value="百度一下"/>
>>>
d.使用属性查找元素:soup.find('tag_name', {'attr_name': 'attr_value'})
>>> print(soup.find("input",{"value":'百度一下'}))
<input class="bg s_btn" id="su" type="submit" value="百度一下"/>
>>>
e.使用CSS选择器查找元素:soup.select('css_selector')
>>> soup.select(".tools")
[<span class="tools"><span id="mHolder"><div id="mCon"><span>
输入法</span></div><ul id="mMenu"><li><a href="javascript:;" name="ime_hw">
手写</a></li><li><a href="javascript:;" name="ime_py">
拼音</a></li><li class="ln"></li><li><a href="javascript:;" name="ime_cl">
关闭</a></li></ul></span></span>]
>>>
5.遍历元素
一旦找到了目标元素,我们可以使用遍历方法来获取元素的子节点或兄弟节点。以下是一些常见的遍历方法:
a.遍历所有子节点:for child in soup.children:
>>> d = soup.find("div",id="s-top-left")
>>> for i in d.children:
print(i)
b.遍历所有兄弟节点:for sibling in soup.next_siblings:
>>> d = soup.find("div",id="s-top-left")
>>> for i in d.next_siblings:
print(i)
三.常见应用场景
- 数据抓取BeautifulSoup4可以帮助我们从网页中提取所需的数据。例如,我们可以使用BeautifulSoup4来抓取新闻网站的标题和链接,或者从电商网站上提取商品的名称、价格和评论等信息。通过灵活的查找和遍历方法,我们可以轻松地获取到所需的数据。
- 网页解析除了数据抓取,BeautifulSoup4还可以用于网页解析和分析。我们可以使用BeautifulSoup4来提取网页中的文本内容、图片链接、视频链接等,并对这些内容进行进一步的处理和分析。例如,我们可以使用BeautifulSoup4来分析某个网站的文章结构和关键词分布,或者提取某个博客页面的评论内容和用户信息等。
- 数据清洗和预处理在进行数据分析和机器学习任务时,我们通常需要对原始数据进行清洗和预处理。BeautifulSoup4可以帮助我们完成这一步骤。例如,我们可以使用BeautifulSoup4来去除网页中的HTML标签和空格,或者对文本内容进行分词和去重等操作,从而得到干净和结构化的数据。
更多用法参考官方文档
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
猜你喜欢
- 2025-01-11 下划线怎么统一长度
- 2025-01-11 移动端重构实战系列:0-4 章
- 2025-01-11 17.CSS概念和语法
- 2025-01-11 ??jsoup Selector类学习笔记,快速提升你的HTML处理能力!
- 2025-01-11 研发Web Components库,深入探究DOM 节点之间的关系
- 2025-01-11 前端面试:css选择器有哪些,选择器的权重的优先级
- 2025-01-11 JavaScript开发基础——CSS知识
- 2025-01-11 零基础学习HTML之CSS篇内联内部外部样式表和类型选择符
- 2025-01-11 程序猿看小说还要去找TXT?自己动手爬一个TXT才是正确的打开方式
- 2025-01-11 HarmonyOS NEXT 案例实战之 Checkbox 多选框基本用法
- 最近发表
-
- 表格存储 SQL 查询多元索引(表格存储 sql 查询多元索引的方法)
- 数据库教程-SQL Server多条件模糊查询
- Twitch宣布放弃Flash并逐步转型至HTML5平台
- 移动平台最强播放器MX Player:终于支持安卓5.0了!
- win10 NFS+黑群晖远程加载管理Windows文件夹(读写NTFS格式+高清播放器)
- Android端VLC 3.3版本发布,重新设计播放器界面
- 不仅仅被苹果封杀!Youtube宣布迁移Flash
- 揭开网站背后的魔法:B/S系统原来这么简单!
- Adobe Animate (An) 2020网页设计软件下载和安装教程
- Adobe发布“巨量”安全更新:遏制Flash“祸害”Linux
- 标签列表
-
- xml (46)
- css animation (57)
- array_slice (60)
- htmlspecialchars (54)
- position: absolute (54)
- datediff函数 (47)
- array_pop (49)
- jsmap (52)
- toggleclass (43)
- console.time (63)
- .sql (41)
- ahref (40)
- js json.parse (59)
- html复选框 (60)
- css 透明 (44)
- css 颜色 (47)
- php replace (41)
- css nth-child (48)
- min-height (40)
- xml schema (44)
- css 最后一个元素 (46)
- location.origin (44)
- table border (49)
- html tr (40)
- video controls (49)