本文共 1121 字,大约阅读时间需要 3 分钟。
BeautifulSoup库的安装
首先我们使用 win+R 输入 cmd回车打开终端,切盘(切到自己安装python的盘,切盘f:
切盘语句用盘符加上冒号:)
pip Install BeautifulSoup4
回车等待即可 引入库
使用import引入,引入bs4
from bs4 import BeautifulSoupimport bs4
解析网页
使用resquests库获得网页源代码,在使用BeautifulSoup对其进行解析
>>> import requests>>> r=requests.get("http://www.baidu.com")>>> r.status_code200>>> r.encoding='utf-8'>>> rt=r.text#这个时候我们看到的网页源代码是杂乱的,使用BeautifulSoup对其进行美化>>> from bs4 import BeautifulSoup #引库>>> soup=BeautifulSoup(rt,"html.parser") #把r.text按照html.perser(解析器)的格式>>> print(soup.prettify())
解析器:安装与安装beautifulsoup库一样,见下表
种类 | 方法 | 条件 |
---|---|---|
bs4的html解析器 | BeautifulSoup(r.text,“html.parser”) | 安装bs4库 |
ixml的html解析器 | BeautifulSoup(r.text,“ixml”) | 安装pip install ixml |
ixml的xml解析器 | BeautifulSoup(r.text,“xml”) | 安装pip install ixml |
html5lib解析器 | BeautifulSoup(r.text,“ihtml5lib”) | 安装pip install html5lib |
rt r.text h5代码
不做详解了,参考w3c教程
接上述代码 Tag标签 与h5的标签指的同一个标签 接上面的代码,使用.标签名即可访问标签,(整个标签从开始到结束里面所有的内容)soup.title百度一下,你就知道
使用< tag>.name可访问标签的名字,返回的是字符串类型
>>> soup.title.name'title'
使用< tag>.attrs可访问标签的属性,返回的是字典类型
>>> soup.title.attrs{ }#这个标签没有属性,故返回一个空字典
使用< tag>.string可访问标签的内容,返回的是字符串类型
>>> soup.title.string'百度一下,你就知道'
转载地址:http://wxmzi.baihongyu.com/