以jQuery之名-爬虫利器PyQuery

很多读者在学习了 Python 之后都想做一些爬虫程序，去网上采集数据或完成一些自动化操作。因此，我们也制作了一套爬虫实战课程，目前正在***的完善中，很快将和各位见面。

10年积累的做网站、网站建设经验，可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你，你也不认识我。但先网站设计后付款的网站建设流程，更有张家港免费网站建设让你可以放心的选择与我们合作。

等不及的朋友，可以先来看看这个类似于 bs4 的网页分析模块——PyQuery。

如果说到 jQuery，熟悉前端的同学肯定不陌生，它可以简单优雅地对 html 文件进行定位、选择、移动等操作。而本文的主角 pyquery，支持以 jquery 的方式对 html 进行操作。因此非常适合有前端或 js 基础的同学使用。

废话不多说，一边看文章，一边打开编辑器，跟着我一探究竟吧。

1. 安装

安装过程比较简单

 
 
 
 
  
  
  
  pip install pyquery

2. 入门使用

接下来，我们以分析简书首页文章为例，简单梳理 pyquery 的部分函数。

(1) 导入相关的库

分别导入网络请求库 requests、以及 pyquery 。

 
 
 
 
  
  
  
  import requests
  
  
  
  import pyquery

(2) 向 pyquery 导入数据

与 bs4 一样，处理网页首先建立一个 pyquery 对象。通过抓取到的网页内容初始化即可。

 
 
 
 
  
  
  
  # 请求简书地址
  
  
  
  url = 'http://www.jianshu.com/'
  
  
  
  req = requests.get(url)
  
  
  
  page = req.text
  
  
  
  # 导入 pyquery 处理
  
  
  
  pq = pyquery.PyQuery(page)

pyquery 也可以直接调用内置的网络请求模块，从网址初始化：

 
 
 
 
  
  
  
  url = 'http://www.baidu.com'
  
  
  
  pq = pyquery.PyQuery(urlurl=url)

(3) 定位元素

pyquery 提供多种定位元素的方法，这里简单介绍三种，直接定位、根据 id 定位，根据 class 定位。

根据 html 标签直接定位：

 
 
 
 
  
  
  
  # 直接定位 head 标签
  
  
  
  pqpq_head = pq('head')

以上代码就是获取 html 中 < head>.......< /head> 标签内的内容。

根据 id 定位：

在简书首页源代码中可找到这么一段

根据 id 定位找到这个 li 标签，代码如下：

 
 
 
 
  
  
  
  # 定位 id = note-11772642 的 li 标签
  
  
  
  pqpq_id = pq('#note-11772642')

以上代码获取 id 名为 note-11772642 的标签，需要注意的是查询 id 时添加 # 前缀，这是 css 选择器语法。

根据 class 定位：

同样以刚才的为例

我们根据 class=have-img 去获取这个 li 标签

 
 
 
 
  
  
  
  # 定位 class = have-img 的 li 标签
  
  
  
  pqpq_class = pq('.have-img')

注意的是查询 class 时添加 . 前缀，这也是 css 选择器语法。

(4) 索引标签

在上一节的***有个小问题，我们知道 head 标签在 html 中只有一个，而 class 名为 have-img 的 li 标签可能有多个，我们该

如何遍历所有的 li 标签呢? 又该如何单独的取某一个 li 呢?

首先我们可以逐个遍历

 
 
 
 
  
  
  
  # 遍历所有 class = have-img 的 li 标签
  
  
  
  for li in pq_class:    
  
  
  
      # 获取每一个 li 标签
  
  
  
      pqpq_li = pq(li)

我们可以索引某一个 li 标签

使用.ep(index) 函数。

 
 
 
 
  
  
  
  # 获取***个 li 标签
  
  
  
  li_first = pq_class.ep(0)
  
  
  
  # 获取第二个 li 标签
  
  
  
  li_second = pq_class.ep(1)

(5) 寻找标签

同样回到刚刚的那张图

在上一步，我们已经找到了所有的 li 标签，也知道如何取索引其中的元素，但我们现在要准确定位到某一个元素，比如上图中 id = note-11772642 这个 li 标签。

这时候 filter(selecter) 就派上了用场

 
 
 
 
  
  
  
  li_spec = pq_class.filter('#note-11772642')

这样我们就找到了指定的这个 li 标签，需要注意的是， filter 函数只能在同一级标签中寻找，比如在这里只能过滤 li 标签，而不能定位 li 标签下的 a 标签、 div 标签等。

当然，针对这种情况， pyquery 为我们提供了另外一个函数 find(selector)，该函数用于寻找子节点，继续以上图为例，寻找该特定 li 标签下的 p 标签

 
 
 
 
  
  
  
  p_tag = li_spec.find('p')

(6) 提取属性与值

以上我们讲了许多关于标签的知识，现在来谈谈怎么获取标签内的属性和标签包裹的文本，实际的爬虫项目中，通常这是最重要的一步，比如从 a 标签中获取链接、从 li 标签或者 p标签中获取文本。

获取属性：

使用 attr() 函数，以我们之前获取的 li 标签为例，获取其中的 id 属性

 
 
 
 
  
  
  
  # 获取 id 属性的方法
  
  
  
  li_specli_spec_id = li_spec.attr('id')
  
  
  
  li_specli_spec_id_2 = li_spec.attr.id
  
  
  
  li_specli_spec_id_3 = li_spec.attr['id']

获取文本：

使用 text()函数，以我们之前得到的 p 标签为例，获取其中的文本。

 
 
 
 
  
  
  
  string = p_tag.text()

到此，在爬虫中会使用到的函数就是这些了。

3. 小结

pyquery 还拥有操作文档树的能力，本篇文章着重介绍与爬虫相关的知识，所以就不再此详细叙述了，有兴趣的同学移步官方文档：

http://pythonhosted.org/pyquery/index.html

***，既然我们都分析了简书首页，请大家根据所学内容爬取简书首页所有的文章标题和文章链接，然后打印出来吧，像下图一样

【本文是专栏机构“Crossin的编程教室”的原创文章，转载请通过微信公众号(rossincode)联系原作者】

网站名称：以jQuery之名-爬虫利器PyQuery
网页地址：http://www.gawzjz.com/qtweb2/news19/23769.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容