欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

urllib2.HTTPError: HTTP Error 403: Forbidden的解决方案

发布时间:2025/3/21 编程问答 33 豆豆
生活随笔 收集整理的这篇文章主要介绍了 urllib2.HTTPError: HTTP Error 403: Forbidden的解决方案 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

在使用python爬取网络爬虫时,经常会以为目标网站因为禁止爬取网络爬虫而出现403 Forbidden的错误

问:为什么会出现403 Forbidden的错误
答:出现urllib2.HTTPError: HTTP Error 403: Forbidden错误的原因主要是由于目标网站禁止爬虫导致的,可以在请求加上请求头信息.

问:那么应该如何解决呢?
答:只要模拟正常浏览器上网即可,比如添加一个headers

req = urllib.request.Request(url="http://en.wikipedia.org"+pageUrl)
html = urlopen(req)

在req中添加一个headers,使其变为

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}req = urllib.request.Request(url="http://en.wikipedia.org"+pageUrl, headers=headers)# req = urllib.request.Request(url="http://en.wikipedia.org"+pageUrl)html = urlopen(req)

问:headers如何查找?
答:可以利用在浏览器开发者工具中的网络查找,比如火狐浏览器

问:伪装成浏览器还会不会出现其他问题?
答:会,比如目标网站会封掉查询次数过多ip地址

总结

以上是生活随笔为你收集整理的urllib2.HTTPError: HTTP Error 403: Forbidden的解决方案的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。