欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程语言 > python >内容正文

python

想用Python爬小姐姐图片?那你得先搞定分布式进程

发布时间:2025/3/15 python 46 豆豆
生活随笔 收集整理的这篇文章主要介绍了 想用Python爬小姐姐图片?那你得先搞定分布式进程 小编觉得挺不错的,现在分享给大家,帮大家做个参考.


导读:分布式进程指的是将Process进程分布到多台机器上,充分利用多台机器的性能完成复杂的任务。我们可以将这一点应用到分布式爬虫的开发中。


作者:范传辉

如需转载请联系大数据(ID:hzdashuju)


分布式进程在Python中依然要用到multiprocessing模块。multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调度者,将任务分布到其他多个进程中,依靠网络通信进行管理。


举个例子:在做爬虫程序时,常常会遇到这样的场景,我们想抓取某个网站的所有图片,如果使用多进程的话,一般是一个进程负责抓取图片的链接地址,将链接地址存放到Queue中,另外的进程负责从Queue中读取链接地址进行下载和存储到本地。


现在把这个过程做成分布式,一台机器上的进程负责抓取链接,其他机器上的进程负责下载存储。那么遇到的主要问题是将Queue暴露到网络中,让其他机器进程都可以访问,分布式进程就是将这一个过程进行了封装,我们可以将这个过程称为本地队列的网络化。整体过程如图1-24所示。


▲图1-24 分布式进程


要实现上面例子的功能,创建分布式进程需要分为六个步骤:


  • 建立队列Queue,用来进行进程间的通信。服务进程创建任务队列task_queue,用来作为传递任务给任务进程的通道;服务进程创建结果队列result_queue,作为任务进程完成任务后回复服务进程的通道。在分布式多进程环境下,必须通过由Queuemanager获得的Queue接口来添加任务。

  • 把第一步中建立的队列在网络上注册,暴露给其他进程(主机),注册后获得网络队列,相当于本地队列的映像。

  • 建立一个对象(Queuemanager(BaseManager))实例manager,绑定端口和验证口令。

  • 启动第三步中建立的实例,即启动管理manager,监管信息通道。

  • 通过管理实例的方法获得通过网络访问的Queue对象,即再把网络队列实体化成可以使用的本地队列。

  • 创建任务到“本地”队列中,自动上传任务到网络队列中,分配给任务进程进行处理。


  • 接下来通过程序实现上面的例子(Linux版),首先编写的是服务进程(taskManager.py),代码如下:


    import random,time,Queuefrom multiprocessing.managers import BaseManager# 第一步:建立task_queue和result_queue,用来存放任务和结果task_queue=Queue.Queue()result_queue=Queue.Queue()class Queuemanager(BaseManager):    pass# 第二步:把创建的两个队列注册在网络上,利用register方法,callable参数关联了Queue对象,# 将Queue对象在网络中暴露Queuemanager.register('get_task_queue',callable=lambda:task_queue)Queuemanager.register('get_result_queue',callable=lambda:result_queue)# 第三步:绑定端口8001,设置验证口令‘qiye’。这个相当于对象的初始化manager=Queuemanager(address=('',8001),authkey='qiye')# 第四步:启动管理,监听信息通道manager.start()# 第五步:通过管理实例的方法获得通过网络访问的Queue对象task=manager.get_task_queue()result=manager.get_result_queue()# 第六步:添加任务for url in ["ImageUrl_"+i for i in range(10)]:    print 'put task %s ...' %url    task.put(url)# 获取返回结果print 'try get result...'for i in range(10):    print 'result is %s' %result.get(timeout=10)# 关闭管理manager.shutdown()
    from multiprocessing.managers import BaseManager
    # 第一步:建立task_queue和result_queue,用来存放任务和结果
    task_queue=Queue.Queue()
    result_queue=Queue.Queue()

    class Queuemanager(BaseManager):
        pass
    # 第二步:把创建的两个队列注册在网络上,利用register方法,callable参数关联了Queue对象,
    # 将Queue对象在网络中暴露
    Queuemanager.register('get_task_queue',callable=lambda:task_queue)
    Queuemanager.register('get_result_queue',callable=lambda:result_queue)

    # 第三步:绑定端口8001,设置验证口令‘qiye’。这个相当于对象的初始化
    manager=Queuemanager(address=('',8001),authkey='qiye')

    # 第四步:启动管理,监听信息通道
    manager.start()

    # 第五步:通过管理实例的方法获得通过网络访问的Queue对象
    task=manager.get_task_queue()
    result=manager.get_result_queue()

    # 第六步:添加任务
    for url in ["ImageUrl_"+i for i in range(10)]:
        print 'put task %s ...' %url
        task.put(url)
    # 获取返回结果
    print 'try get result...'
    for i in range(10):
        print 'result is %s' %result.get(timeout=10)
    # 关闭管理
    manager.shutdown()


    任务进程已经编写完成,接下来编写任务进程(taskWorker.py),创建任务进程的步骤相对较少,需要四个步骤:


  • 使用QueueManager注册用于获取Queue的方法名称,任务进程只能通过名称来在网络上获取Queue。

  • 连接服务器,端口和验证口令注意保持与服务进程中完全一致。

  • 从网络上获取Queue,进行本地化。

  • 从task队列获取任务,并把结果写入result队列。


  • 程序taskWorker.py代码(win/linux版)如下:


    # coding:utf-8import timefrom multiprocessing.managers import BaseManager# 创建类似的QueueManager:class QueueManager(BaseManager):    pass# 第一步:使用QueueManager注册用于获取Queue的方法名称QueueManager.register('get_task_queue')QueueManager.register('get_result_queue')# 第二步:连接到服务器:server_addr = '127.0.0.1'print('Connect to server %s...' % server_addr)# 端口和验证口令注意保持与服务进程完全一致:m = QueueManager(address=(server_addr, 8001), authkey='qiye')# 从网络连接:m.connect()# 第三步:获取Queue的对象:task = m.get_task_queue()result = m.get_result_queue()# 第四步:从task队列获取任务,并把结果写入result队列:while(not task.empty()):    image_url = task.get(True,timeout=5)    print('run task download %s...' % image_url)    time.sleep(1)    result.put('%s--->success'%image_url)# 处理结束:print('worker exit.')
    import time
    from multiprocessing.managers import BaseManager
    # 创建类似的QueueManager:
    class QueueManager(BaseManager):
        pass
    # 第一步:使用QueueManager注册用于获取Queue的方法名称
    QueueManager.register('get_task_queue')
    QueueManager.register('get_result_queue')
    # 第二步:连接到服务器:
    server_addr = '127.0.0.1'
    print('Connect to server %s...' % server_addr)
    # 端口和验证口令注意保持与服务进程完全一致:
    m = QueueManager(address=(server_addr, 8001), authkey='qiye')
    # 从网络连接:
    m.connect()
    # 第三步:获取Queue的对象:
    task = m.get_task_queue()
    result = m.get_result_queue()
    # 第四步:从task队列获取任务,并把结果写入result队列:
    while(not task.empty()):
        image_url = task.get(True,timeout=5)
        print('run task download %s...' % image_url)
        time.sleep(1)
        result.put('%s--->success'%image_url)

    # 处理结束:
    print('worker exit.')


    最后开始运行程序,先启动服务进程taskManager.py,运行结果如下:


    put task ImageUrl_0 ...put task ImageUrl_1 ...put task ImageUrl_2 ...put task ImageUrl_3 ...put task ImageUrl_4 ...put task ImageUrl_5 ...put task ImageUrl_6 ...put task ImageUrl_7 ...put task ImageUrl_8 ...put task ImageUrl_9 ...try get result...
    put task ImageUrl_2 ...
    put task ImageUrl_3 ...
    put task ImageUrl_4 ...
    put task ImageUrl_5 ...
    put task ImageUrl_6 ...
    put task ImageUrl_7 ...
    put task ImageUrl_8 ...
    put task ImageUrl_9 ...
    try get result...


    接着再启动任务进程taskWorker.py,运行结果如下:


    Connect to server 127.0.0.1...run task download ImageUrl_0...run task download ImageUrl_1...run task download ImageUrl_2...run task download ImageUrl_3...run task download ImageUrl_4...run task download ImageUrl_5...run task download ImageUrl_6...run task download ImageUrl_7...run task download ImageUrl_8...run task download ImageUrl_9...worker exit.
    run task download ImageUrl_1...
    run task download ImageUrl_2...
    run task download ImageUrl_3...
    run task download ImageUrl_4...
    run task download ImageUrl_5...
    run task download ImageUrl_6...
    run task download ImageUrl_7...
    run task download ImageUrl_8...
    run task download ImageUrl_9...
    worker exit.


    当任务进程运行结束后,服务进程运行结果如下:


    result is ImageUrl_0--->successresult is ImageUrl_1--->successresult is ImageUrl_2--->successresult is ImageUrl_3--->successresult is ImageUrl_4--->successresult is ImageUrl_5--->successresult is ImageUrl_6--->successresult is ImageUrl_7--->successresult is ImageUrl_8--->successresult is ImageUrl_9--->success
    result is ImageUrl_2--->success
    result is ImageUrl_3--->success
    result is ImageUrl_4--->success
    result is ImageUrl_5--->success
    result is ImageUrl_6--->success
    result is ImageUrl_7--->success
    result is ImageUrl_8--->success
    result is ImageUrl_9--->success


    其实这就是一个简单但真正的分布式计算,把代码稍加改造,启动多个worker,就可以把任务分布到几台甚至几十台机器上,实现大规模的分布式爬虫。


    注:由于平台的特性,创建服务进程的代码在Linux和Windows上有一些不同,创建工作进程的代码是一致的。


    taskManager.py程序在Windows版下的代码如下:


    # coding:utf-8# taskManager.py for windowsimport Queuefrom multiprocessing.managers import BaseManagerfrom multiprocessing import freeze_support# 任务个数task_number = 10# 定义收发队列task_queue = Queue.Queue(task_number);result_queue = Queue.Queue(task_number);def get_task():    return task_queuedef get_result():    return result_queue# 创建类似的QueueManager:class QueueManager(BaseManager):    passdef win_run():    # Windows下绑定调用接口不能使用lambda,所以只能先定义函数再绑定    QueueManager.register('get_task_queue',callable = get_task)    QueueManager.register('get_result_queue',callable = get_result)    # 绑定端口并设置验证口令,Windows下需要填写IP地址,Linux下不填默认为本地    manager = QueueManager(address = ('127.0.0.1',8001),authkey = 'qiye')    # 启动    manager.start()    try:        # 通过网络获取任务队列和结果队列        task = manager.get_task_queue()        result = manager.get_result_queue()        # 添加任务        for url in ["ImageUrl_"+str(i) for i in range(10)]:            print 'put task %s ...' %url            task.put(url)        print 'try get result...'        for i in range(10):            print 'result is %s' %result.get(timeout=10)    except:        print('Manager error')    finally:        # 一定要关闭,否则会报管道未关闭的错误        manager.shutdown()if __name__ == '__main__':    # Windows下多进程可能会有问题,添加这句可以缓解    freeze_support()    win_run()
    # taskManager.py for windows
    import Queue
    from multiprocessing.managers import BaseManager
    from multiprocessing import freeze_support
    # 任务个数
    task_number = 10
    # 定义收发队列
    task_queue = Queue.Queue(task_number);
    result_queue = Queue.Queue(task_number);
    def get_task():
        return task_queue
    def get_result():
        return result_queue
    # 创建类似的QueueManager:
    class QueueManager(BaseManager):
        pass
    def win_run():
        # Windows下绑定调用接口不能使用lambda,所以只能先定义函数再绑定
        QueueManager.register('get_task_queue',callable = get_task)
        QueueManager.register('get_result_queue',callable = get_result)
        # 绑定端口并设置验证口令,Windows下需要填写IP地址,Linux下不填默认为本地
        manager = QueueManager(address = ('127.0.0.1',8001),authkey = 'qiye')
        # 启动
        manager.start()
        try:
            # 通过网络获取任务队列和结果队列
            task = manager.get_task_queue()
            result = manager.get_result_queue()
            # 添加任务
            for url in ["ImageUrl_"+str(i) for i in range(10)]:
                print 'put task %s ...' %url
                task.put(url)
            print 'try get result...'
            for i in range(10):
                print 'result is %s' %result.get(timeout=10)
        except:
            print('Manager error')
        finally:
            # 一定要关闭,否则会报管道未关闭的错误
            manager.shutdown()

    if __name__ == '__main__':
        # Windows下多进程可能会有问题,添加这句可以缓解
        freeze_support()
        win_run()


    关于作者:范传辉,资深网虫,Python开发者,参与开发了多项网络应用,在实际开发中积累了丰富的实战经验,并善于总结,贡献了多篇技术文章广受好评。研究兴趣是网络安全、爬虫技术、数据分析、驱动开发等技术。

    本文摘编自《Python爬虫开发与项目实战》,经出版方授权发布。


    延伸阅读《Python爬虫开发与项目实战

    点击上图了解及购买

    转载请联系微信:DoctorData


    推荐语:零基础学习爬虫技术,从Python和Web前端基础开始讲起,由浅入深,包含大量案例,实用性强。



    据统计,99%的大咖都完成了这个神操作



    更多精彩


    在公众号后台对话框输入以下关键词

    查看更多优质内容!


    PPT | 报告 | 读书 | 书单 | 干货 

    大数据 | 揭秘 | Python | 可视化

    AI | 人工智能 | 5G | 区块链

    机器学习 | 深度学习 | 神经网络

    1024 | 段子 | 数学 | 高考


    猜你想看


    • 深度学习高能干货:手把手教你搭建MXNet框架

    • 手把手教你用OpenCV实现机器学习最简单的k-NN算法(附代码)

    • 41款实用工具,数据获取、清洗、建模、可视化都有了

    • 你是怎样“被平均”的?细数统计数据中的那些坑



    Q: 你还知道哪些爬虫神技?

    欢迎留言与大家分享

    觉得不错,请把这篇文章分享给你的朋友

    转载 / 投稿请联系:baiyu@hzbook.com

    更多精彩,请在后台点击“历史文章”查看

    点击阅读原文,了解更多

    总结

    以上是生活随笔为你收集整理的想用Python爬小姐姐图片?那你得先搞定分布式进程的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。