欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例

发布时间:2025/3/15 编程问答 30 豆豆
生活随笔 收集整理的这篇文章主要介绍了 Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

一、搭建基础 Scrapy 工程框架

创建项目

输入如下命令:

scrapy startproject NewsSpider # 创建项目 cd NewsSpider scrapy genspider technews tech.163.com # 创建一个爬虫tree .目录结构如下: (base) ➜ [dfg@:/Users/dfg/code/codeplay/python/Spider/NewsSpider] tree . . ├── NewsSpider │   ├── __init__.py │   ├── __pycache__ │   │   ├── __init__.cpython-38.pyc │   │   └── settings.cpython-38.pyc │   ├── items.py │   ├── middlewares.py │   ├── pipelines.py │   ├── settings.py │   └── spiders │   ├── __init__.py │   ├── __pycache__ │   │   └── __init__.cpython-38.pyc │   └── technews.py └── scrapy.cfg4 directories, 11 files

明确需求

由于是一个小项目,所以需求比较简单。目标定为爬取网易的科技新闻(tech.163.com),要获取的项目包括以下几项:

  • 标题
  • 发表时间
  • 来源
  • 内容
  • 链接

定义 Item

Item是保存爬取到的数据的容器,其使用方法

总结

以上是生活随笔为你收集整理的Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。