博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫教程:bs4的使用
阅读量:2069 次
发布时间:2019-04-29

本文共 765 字,大约阅读时间需要 2 分钟。

bs4 的使用

  1. bs4 就是Beautiful Soup 的简称,这是一个工具箱,通过解析文档为用户提供需要抓取的数据,
  2. 使用这个不需要在编码的上面考虑,他会自动转换为utf-8编码。
  3. 但是使用这个的前提的就是网页是完整的,但是现在的网页大多规范化,所以都是可以用的
  4. 官网: 
  5. bs4 必须使用一种解析器,如果你没有安装其他的HTML解析器,他会默认使用自带的解析器,但是lxml 解析器更加强大,速度更快,推荐安装
  6. 对于 四种解析器的对比
解析器 使用方法 优势 劣势
Python标准库 BeautifulSoup(markup, “html.parser”) 1. Python的内置标准库 2. 执行速度适中 3.文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器 BeautifulSoup(markup, “lxml”) 1. 速度快 2.文档容错能力强 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, [“lxml”, “xml”]) BeautifulSoup(markup, “xml”) 1. 速度快 2.唯一支持XML的解析器 3.需要安装C语言库  
html5lib BeautifulSoup(markup, “html5lib”) 1. 最好的容错性 2.以浏览器的方式解析文档 3.生成HTML5格式的文档 4.速度慢 不依赖外部扩展

想要学习Python?Python学习交流群:973783996满足你的需求,资料都已经上传群文件,可以自行下载!

对于bs4 有四大对象种类

  1. Tag
  2. navigableString
  3. BeautifulSoup
  4. Comment

更加细致的编写的方法,可以去官网查看

转载地址:http://ainmf.baihongyu.com/

你可能感兴趣的文章
NGWS runtime 技术基础
查看>>
Linux find 文件查询 用法示例
查看>>
Linux 查看文件大小
查看>>
mysql 命令
查看>>
MySQL执行外部sql脚本文件的命令
查看>>
解决MySql Error Code: 2006
查看>>
查看mysql数据库和表所占用空间
查看>>
Guava Collections使用介绍
查看>>
Ordering犀利的比较器
查看>>
spring+Mybatis+Ehcache整合
查看>>
google guava使用例子/示范(一)
查看>>
joda-time 时间API
查看>>
Joda Time API -2
查看>>
Spring使用Cache、整合Ehcache
查看>>
Chrome调试工具奇淫技
查看>>
30分钟快速掌握Bootstrap
查看>>
如何针对业务做DB优化
查看>>
程序猿都该知道的MySQL秘籍
查看>>
Eclipse全面提速小技巧
查看>>
前端程序员必知的30个Chrome扩展
查看>>