博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
BeautifulSoup库的安装
阅读量:3958 次
发布时间:2019-05-24

本文共 1121 字,大约阅读时间需要 3 分钟。

BeautifulSoup库的安装

首先我们使用 win+R 输入 cmd回车打开终端,切盘(切到自己安装python的盘,切盘f: 切盘语句用盘符加上冒号:)

输入安装语句pip Install BeautifulSoup4回车等待即可

引入库

使用import引入,引入bs4

from bs4 import BeautifulSoupimport bs4

解析网页

使用resquests库获得网页源代码,在使用BeautifulSoup对其进行解析

>>> import requests>>> r=requests.get("http://www.baidu.com")>>> r.status_code200>>> r.encoding='utf-8'>>> rt=r.text#这个时候我们看到的网页源代码是杂乱的,使用BeautifulSoup对其进行美化>>> from bs4 import BeautifulSoup #引库>>> soup=BeautifulSoup(rt,"html.parser") #把r.text按照html.perser(解析器)的格式>>> print(soup.prettify())

解析器:安装与安装beautifulsoup库一样,见下表

种类 方法 条件
bs4的html解析器 BeautifulSoup(r.text,“html.parser”) 安装bs4库
ixml的html解析器 BeautifulSoup(r.text,“ixml”) 安装pip install ixml
ixml的xml解析器 BeautifulSoup(r.text,“xml”) 安装pip install ixml
html5lib解析器 BeautifulSoup(r.text,“ihtml5lib”) 安装pip install html5lib

rt r.text h5代码

不做详解了,参考w3c教程

接上述代码
Tag标签 与h5的标签指的同一个标签
接上面的代码,使用.标签名即可访问标签,(整个标签从开始到结束里面所有的内容)

soup.title百度一下,你就知道

使用< tag>.name可访问标签的名字,返回的是字符串类型

>>> soup.title.name'title'

使用< tag>.attrs可访问标签的属性,返回的是字典类型

>>> soup.title.attrs{
}#这个标签没有属性,故返回一个空字典

使用< tag>.string可访问标签的内容,返回的是字符串类型

>>> soup.title.string'百度一下,你就知道'

转载地址:http://wxmzi.baihongyu.com/

你可能感兴趣的文章
Windows下关于多线程类 CSemaphore,CMutex,CCriticalSection,CEvent,信号量CSemaphore的使用介绍
查看>>
图像处理基本算法(汇总)以及实现
查看>>
C++编程获取本机网卡信息 本机IP 包括Windows和Linux
查看>>
C++连接CTP接口实现简单量化交易
查看>>
服务端使用c++实现websocket协议解析及通信
查看>>
C# string.Format使用说明
查看>>
Linux下安装Mysql数据库开发环境
查看>>
Linux用户及用户组添加和删除操作
查看>>
通用 Makefile 的编写方法以及多目录 makefile 写法
查看>>
C++的4种智能指针剖析使用
查看>>
RPC框架实现之容灾策略
查看>>
Docker私库
查看>>
hdu——1106排序(重定向)
查看>>
hdu——1556Color the ball(树状数组)
查看>>
hdu——1541Stars(树状数组)
查看>>
快速幂的精简代码
查看>>
求大数乘方的前n位数字(对数加快速幂)
查看>>
hdu——2602Bone Collector(第一类背包问题)
查看>>
hdu——1711Number Sequence(kmp专练)
查看>>
strstr函数和find函数的异同
查看>>