python爬取大众点评网伪装浏览器返回出现403错误

2019年11月07日 12:01

如果你在使用Python爬取大众点评网时遇到了403错误，这可能意味着你的请求被大众点评网服务器识别并拒绝。其中可能的一个原因是服务器通过User-Agent识别出了你的爬虫行为。

浏览器在向服务器发送请求时会带上User-Agent，表示请求的发起者，而爬虫默认的User-Agent可能较容易被识别。你可以试图设置一个常见浏览器的User-Agent，让你的爬虫伪装成正常的浏览器用户。

以下是一个例子，示范如何使用requests库并设置User-Agent：

import requests
url = "http://www.dianping.com"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
}
response = requests.get(url, headers=headers)

上述的User-Agent是一个常见的Chrome浏览器User-Agent。

如果上述操作还不能解决问题，你可能需要考虑大众点评网是否使用了其他的反爬虫机制。例如检查来源IP并封禁过于频繁请求的IP、检查请求的频率、或者使用图像验证码等。有些问题可能需要更复杂的策略来解决，例如使用IP代理、设置合适的等待时间、或者使用像Selenium这样的浏览器自动化框架来模拟普通用户的行为等。

本文地址： http://www.xiaoliutou.com/index.php?m=home&c=View&a=index&aid=112