Python 下 BeautifulSoup 的基本使用

发表于 2017-04-05 更新于 2022-04-22 分类于 Archived 阅读次数： Disqus：本文字数： 592 阅读时长 ≈ 1 分钟

BeautifulSoup 简介

BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库.

库的安装参考此篇文章 requests 库的使用

导入 BeautifulSoup
from bs4 import BeautifulSoup
创建文档对象
soup = BeautifulSoup(html文档, 'html.parser')
配合 Python 内置的 html 解析器，将 html 文档传入 BeautifulSoup 构造方法。
获取数据
BeautifulSoup提供了如下几种方式搜索文档获取数据：
- find_all() 全文搜索
  返回文档中所有符合要求的数据。
- find() 单次搜索
  返回文档中第一个符合要求的数据。
- select() CSS选择器查找
  soup.select("td[align] > a[target=_blank]")
find_all() 中可以通过 limit 参数限制结果数量，如：
soup.find_all("a", limit=2)
同时上述的 find_all() 和 find() 也可配合 CSS 选择器进行使用，如：
titleList = soup.find_all("a", {"class": "fz14"})

BeautifulSoup 文档