欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客

发布时间:2025/6/15 编程问答 44 豆豆
生活随笔 收集整理的这篇文章主要介绍了 有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客

有关网页抓取问题的一些经验总结

2011-05-05 18:07:38

标签:爬虫 网页抓取

    在写爬虫的时候经常会遇到有些页面下载下来会有问题,如果你把请求模拟成和浏览器一样,肯定是可以把页面正确获取的,但是其中往往很多参数都没有什么用,真正影响的就几个关键参数。这里特别把自己的经验做一下总结。

    重点需要关注的参数有:

1. url: 这主要就是URL编码会导致问题,在URL中包含中文的时候可能会出现

2. user-agent: 大网站通常会对不同的浏览器做优化,所以会有区别

3. cookie: 有些网站会用到cookie信息,比如有些网站会把session信息记录在cookie中

4. refer: 有些网站为了防止跨站攻击,会对refer的页面进行检查

5. accept-charset和accept-encoding: 个别网站会对接收的编码会有特殊处理

6. sessionID: 这个有时会设在参数中,有些网站会用到这个值,当然还有其他参数可能会有用到。

    上面都是经验之谈,希望能对大家有所帮助。

总结

以上是生活随笔为你收集整理的有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。