当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例

发布时间：2025/3/15 编程问答 30 豆豆

生活随笔收集整理的这篇文章主要介绍了 Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例小编觉得挺不错的,现在分享给大家,帮大家做个参考.

一、搭建基础 Scrapy 工程框架

创建项目

输入如下命令：

scrapy startproject NewsSpider # 创建项目 cd NewsSpider scrapy genspider technews tech.163.com # 创建一个爬虫tree .目录结构如下： (base) ➜ [dfg@:/Users/dfg/code/codeplay/python/Spider/NewsSpider] tree . . ├── NewsSpider │ ├── __init__.py │ ├── __pycache__ │ │ ├── __init__.cpython-38.pyc │ │ └── settings.cpython-38.pyc │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ ├── __init__.py │ ├── __pycache__ │ │ └── __init__.cpython-38.pyc │ └── technews.py └── scrapy.cfg4 directories, 11 files

明确需求

由于是一个小项目，所以需求比较简单。目标定为爬取网易的科技新闻（tech.163.com），要获取的项目包括以下几项：

标题
发表时间
来源
内容
链接

定义 Item

Item是保存爬取到的数据的容器，其使用方法

总结

以上是生活随笔为你收集整理的Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇： contains()+replaceFi
下一篇：【C语言】C语言里++能随便用吗？