Python 下 BeautifulSoup 的基本使用

BeautifulSoup 简介

BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库.

库的安装

库的安装参考此篇文章 requests 库的使用

基本使用

  1. 导入 BeautifulSoup
    from bs4 import BeautifulSoup

  2. 创建文档对象
    soup = BeautifulSoup(html文档, 'html.parser')
    配合 Python 内置的 html 解析器,将 html 文档传入 BeautifulSoup 构造方法。

  3. 获取数据
    BeautifulSoup提供了如下几种方式搜索文档获取数据:
    • find_all() 全文搜索
      返回文档中所有符合要求的数据。
    • find() 单次搜索
      返回文档中第一个符合要求的数据。
    • select() CSS选择器查找
      soup.select("td[align] > a[target=_blank]")

    find_all() 中可以通过 limit 参数限制结果数量,如:
    soup.find_all("a", limit=2)
    同时上述的 find_all()find() 也可配合 CSS 选择器进行使用,如:
    titleList = soup.find_all("a", {"class": "fz14"})


参考资料

BeautifulSoup 文档