Python 下 BeautifulSoup 的基本使用
BeautifulSoup 简介
BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库.
库的安装
库的安装参考此篇文章 requests 库的使用
基本使用
导入 BeautifulSoup
from bs4 import BeautifulSoup
创建文档对象
soup = BeautifulSoup(html文档, 'html.parser')
配合 Python 内置的 html 解析器,将 html 文档传入 BeautifulSoup 构造方法。- 获取数据
BeautifulSoup提供了如下几种方式搜索文档获取数据:find_all()
全文搜索
返回文档中所有符合要求的数据。find()
单次搜索
返回文档中第一个符合要求的数据。select()
CSS选择器查找
soup.select("td[align] > a[target=_blank]")
find_all()
中可以通过limit
参数限制结果数量,如:
soup.find_all("a", limit=2)
同时上述的find_all()
和find()
也可配合 CSS 选择器进行使用,如:
titleList = soup.find_all("a", {"class": "fz14"})
参考资料
BeautifulSoup 文档