Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例
生活随笔
收集整理的这篇文章主要介绍了
Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
一、搭建基础 Scrapy 工程框架
创建项目
输入如下命令:
scrapy startproject NewsSpider # 创建项目 cd NewsSpider scrapy genspider technews tech.163.com # 创建一个爬虫tree .目录结构如下: (base) ➜ [dfg@:/Users/dfg/code/codeplay/python/Spider/NewsSpider] tree . . ├── NewsSpider │ ├── __init__.py │ ├── __pycache__ │ │ ├── __init__.cpython-38.pyc │ │ └── settings.cpython-38.pyc │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ ├── __init__.py │ ├── __pycache__ │ │ └── __init__.cpython-38.pyc │ └── technews.py └── scrapy.cfg4 directories, 11 files明确需求
由于是一个小项目,所以需求比较简单。目标定为爬取网易的科技新闻(tech.163.com),要获取的项目包括以下几项:
- 标题
- 发表时间
- 来源
- 内容
- 链接
定义 Item
Item是保存爬取到的数据的容器,其使用方法
总结
以上是生活随笔为你收集整理的Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: contains()+replaceFi
- 下一篇: 【C语言】C语言里++能随便用吗?