python爬虫教程：bs4的使用-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

python爬虫教程：bs4的使用

阅读量：2069 次

发布时间：2019-04-29

本文共 765 字，大约阅读时间需要 2 分钟。

bs4 的使用

bs4 就是Beautiful Soup 的简称，这是一个工具箱，通过解析文档为用户提供需要抓取的数据，

使用这个不需要在编码的上面考虑，他会自动转换为utf-8编码。

但是使用这个的前提的就是网页是完整的，但是现在的网页大多规范化，所以都是可以用的

官网：

bs4 必须使用一种解析器，如果你没有安装其他的HTML解析器，他会默认使用自带的解析器，但是lxml 解析器更加强大，速度更快，推荐安装

对于四种解析器的对比

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	1. Python的内置标准库 2. 执行速度适中 3.文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	1. 速度快 2.文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”]) BeautifulSoup(markup, “xml”)	1. 速度快 2.唯一支持XML的解析器 3.需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	1. 最好的容错性 2.以浏览器的方式解析文档 3.生成HTML5格式的文档 4.速度慢	不依赖外部扩展

想要学习Python？Python学习交流群：973783996满足你的需求，资料都已经上传群文件，可以自行下载！

对于bs4 有四大对象种类

Tag

navigableString

BeautifulSoup

Comment

更加细致的编写的方法，可以去官网查看

转载地址：http://ainmf.baihongyu.com/

你可能感兴趣的文章

NGWS runtime 技术基础

Linux find 文件查询用法示例

Linux 查看文件大小

MySQL执行外部sql脚本文件的命令

解决MySql Error Code: 2006

查看mysql数据库和表所占用空间

Guava Collections使用介绍

Ordering犀利的比较器

spring+Mybatis+Ehcache整合

google guava使用例子/示范(一)

joda-time 时间API

Joda Time API -2

Spring使用Cache、整合Ehcache

Chrome调试工具奇淫技

30分钟快速掌握Bootstrap

如何针对业务做DB优化

程序猿都该知道的MySQL秘籍

Eclipse全面提速小技巧

前端程序员必知的30个Chrome扩展

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-05-17 09:29:51 当前IP: 18.223.170.111 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我