欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

发布时间:2024/5/14 编程问答 79 豆豆
生活随笔 收集整理的这篇文章主要介绍了 Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

文章目录

  • 项目说明
  • Scrapy框架
    • 网页分析
    • 爬虫代码
      • items
      • spiders
      • pipelines
      • main
      • 爬取结果
  • PowerBI分析
    • 分析结果

项目说明

近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。

网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。

豆瓣TOP250图书分析

该网址的数据会不定期更新,感兴趣的同学可以收藏~~~

Scrapy框架

网页分析

浏览网站,确定要爬取的数据

爬虫代码

打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

进入项目路径,打开doubanBook文件夹

items

spiders

pipelines

main

爬取结果

PowerBI分析

  • 出版信息列包含了很多信息,直接用power query清洗整理
  • 评分人数、评分两列也需稍微处理一下


分析结果

说几点有趣的发现,时间截至2020.5(大家也可以随便点点,说不定就能邂逅一本好书呢~)

  • Top250的图书中86.4%是在1996年——2015年中出版,其中上榜数最多的年份是2006,有22本书。
  • 三毛/7本、金庸/6本、王小波/5本、鲁迅/5本分别是上榜作品数最多的四位作家
  • 2018-2020年出版的新书中,仅有三部上榜:《房思琪的初恋乐园》、《失踪的孩子》和《你当像鸟飞往你的山》
  • 哥伦比亚以三部小说斩获了平均评分人数最多的国家,以色列仅凭借一部《人类简史》也排在了第四。
  • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
  • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈

总结

以上是生活随笔为你收集整理的Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。