欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程语言 > python >内容正文

python

python重定向_在Python中使用urlopen()防止“隐藏”重定向

发布时间:2023/12/4 python 46 豆豆
生活随笔 收集整理的这篇文章主要介绍了 python重定向_在Python中使用urlopen()防止“隐藏”重定向 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

我正在使用BeautifulSoup进行网页抓取,并且在使用urlopen时遇到特定类型网站的问题.网站上的每个商品都有其独特的页面,并且商品具有不同的格式(例如:500 mL,1L,2L等).

当我使用Internet浏览器打开产品的URL(www.example.com/product1)时,会看到500 mL格式的图片,有关其的信息(价格,数量,风味等)以及以下内容的列表:此特定项目可用的所有其他格式.如果单击另一种格式(例如1L),则图片和有关该项目的信息将发生变化,但浏览器顶部的URL将保持不变(www.example.com/product1).但是,通过检查页面的HTML代码,我知道所有格式都有其自己的唯一URL(500 mL:www.example.com/product1/123; 1L:www.example.com/product1/456,… ).在Internet浏览器中使用1L格式的唯一URL时,我会自动重定向到www.example.com/product1页面,但是页面上显示的图片和信息与1L格式相对应. HTML代码还包含我需要的有关1L格式的信息.

当我使用urlopen打开这些唯一的URL时,出现了我的问题.

from bs4 import BeautifulSoup

from urllib import urlopen

webpage = urlopen('www.example.com/product1/456')

soup=BeautifulSoup(webpage)

print soup

汤中包含的信息与使用我的Internet浏览器显示的唯一URL的信息不符:www.example.com/product1/456.它为我提供了有关默认情况下在www.example.com/product1上显示的项目格式的信息,该格式始终为500 mL.

有什么方法可以阻止这种重定向,使我可以使用BeautifulSoup捕获唯一URL的HTML代码中包含的信息?

总结

以上是生活随笔为你收集整理的python重定向_在Python中使用urlopen()防止“隐藏”重定向的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。