400 028 6601

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

scrapy框架的简单介绍

这篇文章主要介绍“scrapy框架的简单介绍”,在日常操作中,相信很多人在scrapy框架的简单介绍问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”scrapy框架的简单介绍”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

网站建设公司,为您提供网站建设,网站制作,网页设计及定制网站建设服务,专注于企业网站设计,高端网页制作,对成都履带搅拌车等多个行业拥有丰富的网站建设经验的网站建设公司。专业网站设计,网站优化推广哪家好,专业成都网站推广优化,H5建站,响应式网站。

1.Scrapy五大基本构成

2.使用scrapy框架爬取网页数据

scrapy框架的简单介绍

这样我们就成功的创建了一个scrapy项目,我们在PyCharm中看看

scrapy框架的简单介绍

scrapy框架的简单介绍

from scrapy.cmdline import execute
execute(["scrapy", "crawl", "csdn",])

3.Xpath选择器的介绍

表达式书写方式表达式意义
*选择HTML页面中任意的节点
/从根节点选取
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
.选取当前节点
..选取当前节点的父节点
/bookstore/book[1]选取属于 bookstore 子元素的第一个 book 元素
/bookstore/book[last()]选取属于 bookstore 子元素的最后一个 book 元素
/bookstore/book[last()-1]选取属于 bookstore 子元素的倒数第二个 book 元素
//title[ @lang ]选取所有拥有名为 lang 的属性的 title 元素
//title[ @lang =’eng’]选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性
/bookstore/book[price>35.00]选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00
/bookstore/book[price>35.00]/title选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00
//*选取文档中的所有元素
//title[@*]选取所有带有属性的 title 元素
//book/title , //book/price选取 book 元素的所有 title 和 price 元素
//title , //price选取文档中的所有 title 和 price 元素
child::book选取所有属于当前节点的子元素的 book 节点
child::text()选取当前节点的所有文本子节点
/bookstore/book/title选取所有 title 节点
/bookstore/book/price/text()选取 price 节点中的所有文本
//*任意元素

使用XPath

我们来通过XPath选择器爬取网站中我们想要爬取的信息,如下图我们来爬去今日推荐中的标题
scrapy框架的简单介绍

import scrapy
class CsDNSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['http://www.csdn.net/']
    def parse(self, response):
       # 选择所有class="company_name"的h4元素下的a元素的文本 
       result = response.xpath('//h4[@class="company_name"]/a/text()').extract()
       # 将得到的文本列表循环 
       for i in result:
           print(i)

我们来看一下输出打印,看看是不是我们想要的结果

scrapy框架的简单介绍

到此,关于“scrapy框架的简单介绍”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!


网站名称:scrapy框架的简单介绍
转载来源:http://mzwzsj.com/article/jhpgeh.html

其他资讯

让你的专属顾问为你服务