scrapy下载文件和图片

一：pipeline
scrapy为下载 item上包含的文件（比如在爬取到产品时，同时也想保存对应的图片）提供了一个可重用的item pipelines。这些pipeline 有些共同的方法和结构（我们称之为media pipeline)。一般来说你会使用Files Pipeline或者images pipelines。

为什么要选择scrapy内置的下载文件的方法
1：避免重新下载最近已经下载过的数据
2：可以方便的指定文件存储的路径
3：可以将下载的图片转换成通用的格式。如：png,jpg
4：可以方便的生成缩略图
5：可以方便的检测图片的宽和高，确保他们满足最小限制
6：异步下载，效率非常高

二：使用scrapy下载图片
2.1 创建scrapy项目
(crawler) F:\WWWROOT\crawler>scrapy startproject bmw
1.2 创建爬虫
(crawler) F:\WWWROOT\crawler>scrapy genspider bmw5 "car.autohome.com.cn"
1.3 配置文件设置
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = 1
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'
}
ITEM_PIPELINES = {
'bmw.pipelines.BmwPipeline': 300,
}

1.4 编写启动文件
from scrapy import cmdline
cmdline.execute("scrapy crawl bmw5".split())
启动文件用来代替命令行启动，文件放在项目根目录下

1.5 爬取数据
import scrapy
from bmw.items import BmwItem
class Bmw5Spider(scrapy.Spider):
name = 'bmw5'
allowed_domains = ['car.autohome.com.cn']
start_urls = ['https://car.autohome.com.cn/pic/series/587.html']
def parse(self, response):
ui_boxes = response.xpath('//div[@class="uibox"]')[1:]
for ui_box in ui_boxes:
category = ui_box.xpath('.//div[@class="uibox-title"]/a/text()').get()
urls = ui_box.xpath('.//ul/li/a/img/@src').getall()
urls = list(map(lambda url: response.urljoin(url), urls))
item = BmwItem(category = category, urls = urls)
yield item

1.6 定义字段
class BmwItem(scrapy.Item):
category = scrapy.Field()
urls = scrapy.Field()

1.7 使用默认的pipeline下载图片
import os
import pypinyin
from urllib import request

class BmwPipeline:
def __init__(self):
self.images_path = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'images')
self.create_dir(self.images_path)
def create_dir(self, dir_path):
if not os.path.exists(dir_path): os.mkdir(dir_path)
def process_item(self, item, spider):
category = item['category']
urls = item['urls']
category_path = os.path.join(self.images_path, self._convert_to_pinyin(category))
self.create_dir(category_path)
for image_url in urls:
image_name = image_url.split('_')[-1]
request.urlretrieve(image_url, os.path.join(category_path, image_name))
return item
def _convert_to_pinyin(self, world):
# 将中文汉字转换成不带声调的拼音
to_pinyin = [''.join(i) for i in pypinyin.pinyin(world, style=pypinyin.NORMAL)]
to_pinyin = ''.join(to_pinyin)
return to_pinyin

二：下载文件的 Files Pipeline
使用Files Pipeline下载文件，按照以下步骤完成：

定义好一个Item，然后在这个item中定义两个属性，分别为file_urls以及files。files_urls是用来存储需要下载的文件的url链接，需要给一个列表
当文件下载完成后，会把文件下载的相关信息存储到item的files属性中。如下载路径、下载的url和文件校验码等
在配置文件settings.py中配置FILES_STORE，这个配置用来设置文件下载路径
启动pipeline：在ITEM_PIPELINES中设置scrapy.piplines.files.FilesPipeline:1
三：下载图片的 Images Pipeline
使用images pipeline下载文件步骤：

定义好一个Item，然后在这个item中定义两个属性，分别为image_urls以及images。image_urls是用来存储需要下载的文件的url链接，需要给一个列表
当文件下载完成后，会把文件下载的相关信息存储到item的images属性中。如下载路径、下载的url和图片校验码等
在配置文件settings.py中配置IMAGES_STORE，这个配置用来设置文件下载路径
启动pipeline：在ITEM_PIPELINES中设置scrapy.pipelines.images.ImagesPipeline:1
3.1 配置文件修改
import os
ITEM_PIPELINES = {
# 'bmw.pipelines.BmwPipeline': 300,
'scrapy.pipelines.images.ImagesPipeline': 1 # 使用scrapy内置的ImagesPipeline
}
# 配置文件的下载路径
IMAGES_STORE = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'images')

3.2 修改items字段
import scrapy
class BmwItem(scrapy.Item):
category = scrapy.Field()
image_urls = scrapy.Field()
images = scrapy.Field()

3.3 修改爬取数据文件
由于字段修改了，在爬取数据文件中，只需要修改下字段名即可

class BmwSpider(scrapy.Spider):
name = 'bmw'
allowed_domains = ['car.autohome.com.cn']
start_urls = ['https://car.autohome.com.cn/pic/series/4472.html']
def parse(self, response):
uiboxs = response.xpath('//div[@class="uibox"]')[1:]
for uibox in uiboxs:
category = uibox.xpath('.//div[@class="uibox-title"]/a/text()').get()
url_list = uibox.xpath('.//ul/li/a/img/@src').getall()
# urls = ['https:' + url for url in url_list]
urls = list(map(lambda url: response.urljoin(url), url_list))
item = AutohomeItem(category = category, image_urls = urls) # 修改这里的urls为image_urls
yield item

修改完后即可运行程序，下载图片（异步下载）。
下载的图片都保存在images/full/目录下，为什么了多了full这个目录，查看下源码：

由于scrapy默认的Images Pipeline目录结构不是我们想要的，我们希望图片按照目标站的分类进行创建目录结构，所以得重写保存路径的代码

3.4 自定义 images pipeline
首先修改下settings配置文件：

ITEM_PIPELINES = {
# 'bmw.pipelines.BmwPipeline': 300,
# 'scrapy.pipelines.images.ImagesPipeline': 1
'bmw.pipelines.BmwImagesPipeline': 1 # 自定义的BmwImagesPipeline类
}

在pipelines.py文件实现自定义的BmwImagesPipeline类：

import os
from urllib import request
from scrapy.pipelines.images import ImagesPipeline
from bmw import settings

class BmwImagesPipeline(ImagesPipeline): # 必须继承ImagesPipeline
# 重写父类的下面两个方法
def get_media_requests(self, item, info):
# 该方法在发送下载请求前调用，其实这个方法本身就是去发送下载请求的
# 因为file_path中并没有item对象，所以使用该方法将item动态绑定到request对象上
request_objs = super(BmwImagesPipeline, self).get_media_requests(item, info)
for request_obj in request_objs:
request_obj.item = item
return request_objs
def file_path(self, request, response = None, info = None):
# 该方法是在图片将要被存储的时候调用，来获取这个图片存储路径
path = super(BmwImagesPipeline, self).file_path(request, response, info)
category = request.item.get('category')
images_store = settings.IMAGES_STORE
category_path = os.path.join(images_store, category)
if not os.path.exists(category_path):
os.mkdir(category_path)
image_name = path.replace('full/', '')
image_path = os.path.join(category_path, image_name)
return image_path

四：Images Pipeline的简单案例
1：spider文件内容如下

import scrapy
from ImgsPro.items import ImgsproItem
class ChinazSpider(scrapy.Spider):
name = 'chinaz'
# allowed_domains = ['www.xxx.com']
start_urls = ['http://sc.chinaz.com/tupian/']
def parse(self, response):
div_list = response.xpath('//div[@id="container"]/div')
for div in div_list:
# 这里涉及到了图片的懒加载，所以这里的xpath规则使用了src2的这个伪属性
src = div.xpath('./div/a/img/@src2').extract_first()
item = ImgsproItem(src = src)
yield item

2：items.py文件内容

import scrapy
class ImgsproItem(scrapy.Item):
src = scrapy.Field()

3：pipeline文件内容

from scrapy.pipelines.images import ImagesPipeline
import scrapy
class ImgsPipeline(ImagesPipeline):
# 主要重写下面三个父类方法
def get_media_requests(self, item, info):
yield scrapy.Request(item['src'])
def file_path(self, request, response=None, info=None):
img_name = request.url.split('/')[-1]
return img_name # 返回文件名
def item_completed(self, results, item, info):
return item # 返回给下一个即将被执行的管道类

4：settings配置文件

ITEM_PIPELINES = {
# 'ImgsPro.pipelines.ImgsproPipeline': 300,
'ImgsPro.pipelines.ImgsPipeline': 300,
}
IMAGES_STORE = './images'

scrapy下载文件和图片

hush

相关推荐

热门文章

热门搜索

seo超级工具

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

关注微信公众号：themebetter
复制微信号

回顶部