富贵免费资源库

python爬取大众点评网伪装浏览器返回出现403错误

如果你在使用Python爬取大众点评网时遇到了403错误,这可能意味着你的请求被大众点评网服务器识别并拒绝。其中可能的一个原因是服务器通过User-Agent识别出了你的爬虫行为。


浏览器在向服务器发送请求时会带上User-Agent,表示请求的发起者,而爬虫默认的User-Agent可能较容易被识别。你可以试图设置一个常见浏览器的User-Agent,让你的爬虫伪装成正常的浏览器用户。


以下是一个例子,示范如何使用requests库并设置User-Agent:



import requests
url = "http://www.dianping.com"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
}
response = requests.get(url, headers=headers)




上述的User-Agent是一个常见的Chrome浏览器User-Agent。


如果上述操作还不能解决问题,你可能需要考虑大众点评网是否使用了其他的反爬虫机制。例如检查来源IP并封禁过于频繁请求的IP、检查请求的频率、或者使用图像验证码等。有些问题可能需要更复杂的策略来解决,例如使用IP代理、设置合适的等待时间、或者使用像Selenium这样的浏览器自动化框架来模拟普通用户的行为等。