当前位置：首页 > 编程语言 > python >内容正文

python

数据之路 - Python爬虫 - 数据存储

发布时间：2023/11/29 python 44 豆豆

生活随笔收集整理的这篇文章主要介绍了数据之路 - Python爬虫 - 数据存储小编觉得挺不错的,现在分享给大家,帮大家做个参考.

一、文件存储

1.文件打开方式

文件打开方式	说明
r	以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式
rb	以二进制只读方式打开一个文件。文件指针将会放在文件的开头
r+	以读写方式打开一个文件。文件指针将会放在文件的开头
rb+	以二进制读写方式打开一个文件。文件指针将会放在文件的开头
w	以写入方式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
wb	以二进制写入方式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
w+	以读写方式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
wb+	以二进制读写格式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
a	以追加方式打开一个文件。如果该文件已存在，文件指针将会放在文件结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，则创建新文件来写入
ab	以二进制追加方式打开一个文件。如果该文件已存在，则文件指针将会放在文件结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，则创建新文件来写入
a+	以读写方式打开一个文件。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，则创建新文件来读写
ab+	以二进制追加方式打开一个文件。如果该文件已存在，则文件指针将会放在文件结尾。如果该文件不存在，则创建新文件用于读写

2.txt文本存储

with open('explore.txt', 'a', encoding='utf-8') as file:file.write('\n'.join([question, author, answer]))file.write('\n' + '=' * 50 + '\n')

3.json文件存储

调用库的loads()方法将JSON文本字符串转为JSON对象，可以通过dumps()方法将JSON对象转为文本字符串

- 读取json

import jsonstr = ''' [{"name": "Bob","gender": "male","birthday": "1992-10-18" }, {"name": "Selina","gender": "female","birthday": "1995-10-18" }] ''' print(type(str)) data = json.loads(str) print(data) print(type(data))

- 输出json

import jsondata = [{'name': 'Bob','gender': 'male','birthday': '1992-10-18' }] with open('data.json', 'w') as file:file.write(json.dumps(data))

4.csv文件存储

- 写入

首先，打开data.csv文件，然后指定打开的模式为w（即写入），获得文件句柄，随后调用csv库的writer()方法初始化写入对象，传入该句柄，然后调用writerow()方法传入每行的数据即可完成写入。writerows()方法同时写入多行

import csvwith open('data.csv', 'w') as csvfile:writer = csv.writer(csvfile, delimiter=' ')writer.writerow(['id', 'name', 'age'])writer.writerow(['10001', 'Mike', 20])writer.writerow(['10002', 'Bob', 22])writer.writerow(['10003', 'Jordan', 21])

- 读取

import csvwith open('data.csv', 'r', encoding='utf-8') as csvfile:reader = csv.reader(csvfile)for row in reader:print(row)

二、MySQL关系型数据库存储

1.MySQL连接

import pymysql # connect()方法声明一个MySQL连接对象 db = pymysql.connect(host='localhost',user='root', password='123456', port=3306) # cursor()方法获得MySQL的操作游标，利用游标来执行SQL语句 cursor = db.cursor() # 创建students数据表 sql = 'CREATE TABLE IF NOT EXISTS students (id VARCHAR(255) NOT NULL, name VARCHAR(255) NOT NULL, age INT NOT NULL, PRIMARY KEY (id))' cursor.execute(sql)

2.插入

import pymysqlid = '20120001' user = 'Bob' age = 20db = pymysql.connect(host='localhost', user='root', password='123456', port=3306, db='spiders') cursor = db.cursor() sql = 'INSERT INTO students(id, name, age) values(%s, %s, %s)' try:cursor.execute(sql, (id, user, age))db.commit() except:db.rollback() db.close() ==================================================================================================
data = {'id': '20120001','name': 'Bob','age': 20 } table = 'students' keys = ', '.join(data.keys()) values = ', '.join(['%s'] * len(data)) sql = 'INSERT INTO {table}({keys}) VALUES ({values})'.format(table=table, keys=keys, values=values) try:if cursor.execute(sql, tuple(data.values())):print('Successful')db.commit() except:print('Failed')db.rollback() db.close()

3.更新

sql = 'UPDATE students SET age = %s WHERE name = %s' try:cursor.execute(sql, (25, 'Bob'))db.commit() except:db.rollback() db.close() =========================================================================================================================== data = {'id': '20120001','name': 'Bob','age': 21 }table = 'students' keys = ', '.join(data.keys()) values = ', '.join(['%s'] * len(data))sql = 'INSERT INTO {table}({keys}) VALUES ({values}) ON DUPLICATE KEY UPDATE'.format(table=table, keys=keys, values=values) update = ','.join([" {key} = %s".format(key=key) for key in data]) sql += update try:if cursor.execute(sql, tuple(data.values())*2):print('Successful')db.commit() except:print('Failed')db.rollback() db.close()

4.删除

table = 'students' condition = 'age > 20'sql = 'DELETE FROM {table} WHERE {condition}'.format(table=table, condition=condition) try:cursor.execute(sql)db.commit() except:db.rollback()db.close()

5.查询

sql = 'SELECT * FROM students WHERE age >= 20'try:cursor.execute(sql)print('Count:', cursor.rowcount)one = cursor.fetchone()print('One:', one)results = cursor.fetchall()print('Results:', results)print('Results Type:', type(results))for row in results:print(row) except:print('Error')

三、MongoDB非关系型数据库存储

1.MongoDB连接

import pymongo # 连接MongoDB client = pymongo.MongoClient(host='localhost', port=27017) # 指定数据库 db = client.test # 指定集合(类似于数据表) collection = db.students

2.插入

student = {'id': '20170101','name': 'Jordan','age': 20,'gender': 'male' }student1 = {'id': '20170101','name': 'Jordan','age': 20,'gender': 'male' }student2 = {'id': '20170202','name': 'Mike','age': 21,'gender': 'male' }result = collection.insert(student) result = collection.insert([student1, student2]) result = collection.insert_many([student1, student2]) print(result)

3.查询

# find_one()查询得到的是单个结果，find()则返回一个生成器对象。 result = collection.find_one({'name': 'Mike'}) result = collection.find_all({'name': 'Mike'})

- 常用符号

符号类型	符号	含义	示例
比较符号	$lt	小于	{'age': {'$lt': 20}}
	$gt	大于	{'age': {'$gt': 20}}
	$lte	小于等于	{'age': {'$lte': 20}}
	$gte	大于等于	{'age': {'$gte': 20}}
	$ne	不等于	{'age': {'$ne': 20}}
	$in	在范围内	{'age': {'$in': [20, 23]}}
	$nin	不在范围内	{'age': {'$nin': [20, 23]}}
功能符号	$regex	匹配正则表达式，name以M开头	{'name': {'$regex': '^M.*'}}
	$exists	属性是否存在，name属性存在	{'name': {'$exists': True}}
	$type	类型判断，age的类型为int	{'age': {'$type': 'int'}}
	$mod	数字模操作，年龄模5余0	{'age': {'$mod': [5, 0]}}
	$text	文本查询，text类型的属性中包含Mike字符串	{'$text': {'$search': 'Mike'}}
	$where	高级条件查询，自身粉丝数等于关注数	{'$where': 'obj.fans_count == obj.follows_count'}

4.更新

condition = {'name': 'Kevin'} student = collection.find_one(condition) student['age'] = 25 result = collection.update(condition, student) print(result)# update_many()方法，则会将所有符合条件的数据都更新 # update_one()方法，则会将单个符合条件的数据都更新

5.删除

# remove()将符合条件的所有数据删除 result = collection.remove({'name': 'Kevin'}) print(result) # delete_one()删除第一条符合条件的数据 result = collection.delete_one({'name': 'Kevin'}) print(result) print(result.deleted_count) # delete_many()即删除所有符合条件的数据 result = collection.delete_many({'age': {'$lt': 25}}) print(result.deleted_count) # deleted_count属性获取删除的数据条数

四、Redis非关系型数据库存储

1.Redis连接

from redis import StrictRedisredis = StrictRedis(host='localhost', port=6379, db=0, password='foobared') redis.set('name', 'Bob') print(redis.get('name'))

2.键操作

方法	作用	参数说明
exists(name)	判断一个键是否存在	name：键名
delete(name)	删除一个键	name：键名
type(name)	判断键类型	name：键名
keys(pattern)	获取所有符合规则的键	pattern：匹配规则
randomkey()	获取随机的一个键
rename(src, dst)	重命名键	src：原键名；dst：新键名
dbsize()	获取当前数据库中键的数目
expire(name, time)	设定键的过期时间，单位为秒	name：键名；time：秒数
ttl(name)	获取键的过期时间，单位为秒，-1表示永久不过期	name：键名
move(name, db)	将键移动到其他数据库	name：键名；db：数据库代号
flushdb()	删除当前选择数据库中的所有键
flushall()	删除所有数据库中的所有键

3.字符串操作

方法	作用	参数说明
set(name, value)	给数据库中键为name的string赋予值value	name: 键名；value: 值
get(name)	返回数据库中键为name的string的value	name：键名
getset(name, value)	给数据库中键为name的string赋予值value并返回上次的value	name：键名；value：新值
mget(keys, *args)	返回多个键对应的value	keys：键的列表
setnx(name, value)	如果不存在这个键值对，则更新value，否则不变	name：键名
setex(name, time, value)	设置可以对应的值为string类型的value，并指定此键值对应的有效期	name: 键名；time: 有效期； value：值
setrange(name, offset, value)	设置指定键的value值的子字符串	name：键名；offset：偏移量；value：值
mset(mapping)	批量赋值	mapping：字典
msetnx(mapping)	键均不存在时才批量赋值	mapping：字典
incr(name, amount=1)	键为name的value增值操作，默认为1，键不存在则被创建并设为amount	name：键名；amount：增长的值
decr(name, amount=1)	键为name的value减值操作，默认为1，键不存在则被创建并将value设置为-amount	name：键名； amount：减少的值
append(key, value)	键为name的string的值附加value	key：键名
substr(name, start, end=-1)	返回键为name的string的子串	name：键名；start：起始索引；end：终止索引，默认为-1，表示截取到末尾
getrange(key, start, end)	获取键的value值从start到end的子字符串	key：键名；start：起始索引；end：终止索引

4.列表操作

方法	作用	参数说明
rpush(name, *values)	在键为name的列表末尾添加值为value的元素，可以传多个	name：键名；values：值
lpush(name, *values)	在键为name的列表头添加值为value的元素，可以传多个	name：键名；values：值
llen(name)	返回键为name的列表的长度	name：键名
lrange(name, start, end)	返回键为name的列表中start至end之间的元素	name：键名；start：起始索引；end：终止索引
ltrim(name, start, end)	截取键为name的列表，保留索引为start到end的内容	name：键名；start：起始索引；end：终止索引
lindex(name, index)	返回键为name的列表中index位置的元素	name：键名；index：索引
lset(name, index, value)	给键为name的列表中index位置的元素赋值，越界则报错	name：键名；index：索引位置；value：值
lrem(name, count, value)	删除count个键的列表中值为value的元素	name：键名；count：删除个数；value：值
lpop(name)	返回并删除键为name的列表中的首元素	name：键名
rpop(name)	返回并删除键为name的列表中的尾元素	name：键名
blpop(keys, timeout=0)	返回并删除名称在keys中的list中的首个元素，如果列表为空，则会一直阻塞等待	keys：键列表；timeout：超时等待时间，0为一直等待
brpop(keys, timeout=0)	返回并删除键为name的列表中的尾元素，如果list为空，则会一直阻塞等待	keys：键列表；timeout：超时等待时间，0为一直等待
rpoplpush(src, dst)	返回并删除名称为src的列表的尾元素，并将该元素添加到名称为dst的列表头部	src：源列表的键；dst：目标列表的key

5.集合操作

方法	作用	参数说明
sadd(name, *values)	向键为name的集合中添加元素	name：键名；values：值，可为多个
srem(name, *values)	从键为name的集合中删除元素	name：键名；values：值，可为多个
spop(name)	随机返回并删除键为name的集合中的一个元素	name：键名
smove(src, dst, value)	从src对应的集合中移除元素并将其添加到dst对应的集合中	src：源集合；dst：目标集合；value：元素值
scard(name)	返回键为name的集合的元素个数	name：键名
sismember(name, value)	测试member是否是键为name的集合的元素	name：键值
sinter(keys, *args)	返回所有给定键的集合的交集	keys：键列表
sinterstore(dest, keys, *args)	求交集并将交集保存到dest的集合	dest：结果集合；keys：键列表
sunion(keys, *args)	返回所有给定键的集合的并集	keys：键列表
sunionstore(dest, keys, *args)	求并集并将并集保存到dest的集合	dest：结果集合；keys：键列表
sdiff(keys, *args)	返回所有给定键的集合的差集	keys：键列表
sdiffstore(dest, keys, *args)	求差集并将差集保存到dest集合	dest：结果集合；keys：键列表
smembers(name)	返回键为name的集合的所有元素	name：键名
srandmember(name)	随机返回键为name的集合中的一个元素，但不删除元素	name：键值

6.有序集合操作

方法	作用	参数说明
zadd(name, args, *kwargs)	向键为name的zset中添加元素member，score用于排序。如果该元素存在，则更新其顺序	name：键名；args：可变参数
zrem(name, *values)	删除键为name的zset中的元素	name：键名；values：元素
zincrby(name, value, amount=1)	如果在键为name的zset中已经存在元素value，则将该元素的score增加amount；否则向该集合中添加该元素，其score的值为amount	name：key名；value：元素；amount：增长的score值
zrank(name, value)	返回键为name的zset中元素的排名，按score从小到大排序，即名次	name：键名；value：元素值
zrevrank(name, value)	返回键为name的zset中元素的倒数排名（按score从大到小排序），即名次	name：键名；value：元素值
zrevrange(name, start, end, withscores=False)	返回键为name的zset（按score从大到小排序）中index从start到end的所有元素	name：键值；start：开始索引；end：结束索引；withscores：是否带score
zrangebyscore(name, min, max, start=None, num=None, withscores=False)	返回键为name的zset中score在给定区间的元素	name：键名；min：最低score；max：最高score；start：起始索引；num：个数；withscores：是否带score
zcount(name, min, max)	返回键为name的zset中score在给定区间的数量	name：键名；min：最低score；max：最高score
zcard(name)	返回键为name的zset的元素个数	name：键名
zremrangebyrank(name, min, max)	删除键为name的zset中排名在给定区间的元素	name：键名；min：最低位次；max：最高位次
zremrangebyscore(name, min, max)	删除键为name的zset中score在给定区间的元素	name：键名；min：最低score；max：最高score

7.散列操作

方法	作用	参数说明
hset(name, key, value)	向键为name的散列表中添加映射	name：键名；key：映射键名；value：映射键值
hsetnx(name, key, value)	如果映射键名不存在，则向键为name的散列表中添加映射	name：键名；key：映射键名；value：映射键值
hget(name, key)	返回键为name的散列表中key对应的值	name：键名；key：映射键名
hmget(name, keys, *args)	返回键为name的散列表中各个键对应的值	name：键名；keys：映射键名列表
hmset(name, mapping)	向键为name的散列表中批量添加映射	name：键名；mapping：映射字典
hincrby(name, key, amount=1)	将键为name的散列表中映射的值增加amount	name：键名；key：映射键名；amount：增长量
hexists(name, key)	键为name的散列表中是否存在键名为键的映射	name：键名；key：映射键名
hdel(name, *keys)	在键为name的散列表中，删除键名为键的映射	name：键名；keys：映射键名
hlen(name)	从键为name的散列表中获取映射个数	name：键名
hkeys(name)	从键为name的散列表中获取所有映射键名	name：键名
hvals(name)	从键为name的散列表中获取所有映射键值	name：键名
hgetall(name)	从键为name的散列表中获取所有映射键值对	name：键名

8.RedisDump

RedisDump提供了两个可执行命令：redis-dump用于导出数据，redis-load用于导入数据。

转载于:https://www.cnblogs.com/Iceredtea/p/11094753.html

总结

以上是生活随笔为你收集整理的数据之路 - Python爬虫 - 数据存储的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇：梦到母亲被蛇咬好不好
下一篇： appium+python+iOS 环