爬虫中国最好的大学排名
生活随笔
收集整理的这篇文章主要介绍了
爬虫中国最好的大学排名
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
爬取内容:中国最好的大学排名
输入:大学排名网页的url输入
输出:大学排名信息的屏幕输出
技术路线:requests,bs4
step1:从网络爬取网页内容
step2:提取网页信息到合适的数据结构
step3:利用数据结构展示并输出结果
URL:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html
查看robots协议:http://www.zuihaodaxue.cn/robots.txt
代码:
import requests import bs4 from bs4 import BeautifulSoupdef getHTMLText(url):'''获取网页信息的通用框架'''try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.textexcept:return ''def fillUnivList(ulist,html):soup=BeautifulSoup(html,'html.parser')# 检查网页代码可以发现数据都储存在tboyd标签中,这里需要对tbody的儿子节点进行遍历for tr in soup.find(&#总结
以上是生活随笔为你收集整理的爬虫中国最好的大学排名的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 论文阅读(Improving neura
- 下一篇: Hudson和Jenkins的关系