爬虫不“刑”教程

import requests

url = "https://www.baidu.com"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Accept-Encoding": "gzip, deflate, br"
}

response = requests.get(url, headers=headers)

print("请求头:", response.request.headers)
print("响应头:", response.headers)

2. Python 爬虫开发

2.1 使用 `requests` 发送 HTTP 请求

import requests
headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get("https://example.com", headers=headers)
print(response.text)

2.2 解析 HTML 数据

2.2.1 使用 `BeautifulSoup`

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, "html.parser")
print(soup.title.text)

2.2.2 使用 `lxml`

from lxml import etree
tree = etree.HTML(response.text)
titles = tree.xpath("//title/text()")
print(titles)

3. 反爬策略及应对

3.1 常见反爬机制

1. User-Agent 检测

网站会检查 User-Agent 请求头来判断访问来源。如果 User-Agent 缺失或与已知爬虫特征匹配，网站可能会拒绝请求。

应对方案：使用常见浏览器的 User-Agent，并随机切换。

import random
import requests

user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Firefox/89.0",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Edge/91.0.864.64"
]

headers = {
    "User-Agent": random.choice(user_agents)
}

response = requests.get("https://example.com", headers=headers)
print(response.text)

2. IP 限制

网站可能通过检测访问频率来封锁同一 IP 地址过于频繁的请求。

应对方案：

使用代理池：轮换 IP，避免单一 IP 被封。
控制访问频率：添加随机时间间隔，模拟正常用户访问。

import time
proxies = [
    {"http": "http://1.2.3.4:8080"},
    {"http": "http://2.3.4.5:8080"},
    {"http": "http://3.4.5.6:8080"}
]
proxy = random.choice(proxies)
time.sleep(random.uniform(1, 5))  # 随机延迟

response = requests.get("https://example.com", proxies=proxy)
print(response.text)

3. 验证码验证

许多网站使用验证码来阻止自动化访问，如 Google reCAPTCHA。

应对方案：

使用 OCR 技术解析验证码，如 pytesseract。
使用打码平台（如 5captcha）获取验证码结果。

from PIL import Image
import pytesseract

image = Image.open('captcha.png')
captcha_text = pytesseract.image_to_string(image)
print("识别的验证码是:", captcha_text)

4. 动态内容加载

很多网站使用 JavaScript 生成内容，而爬虫默认不会执行 JavaScript。

应对方案：

使用 Selenium 模拟浏览器。
直接抓取网站 API。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://example.com")
print(driver.page_source)
driver.quit()

注意哦，爬虫虽好，也需遵循 robots.txt 协议，避免恶意爬取影响网站运作，感叹爬虫真刑就晚了。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

EM-Core 创造者叙事：从牛角尖，到通用智能架构

脑启社区

天赐范式第44天：算子大全与API白皮书Tianci Paradigm Day 44: Complete Operator Compendium and Unified API White Paper

脑启社区

人工智能导论：模型与算法（未来发展与趋势）

人工智能作为引领新一轮科技革命和产业变革的战略性技术，正在深刻改变人类社会。本章从类脑计算、自动化机器学习、神经网络压缩、人工智能芯片、量子机器学习、人工智能伦理与治理、人工智能算法开发框架等方面，简要总结人工智能的未来发展方向和趋势。

脑启社区

所有评论(0)

查看更多评论

昊昊该干饭了

@qq_52213943

已为社区贡献3条内容

爬虫不“刑”教程

昊昊该干饭了

1. 爬虫基础

1.1 爬虫的定义

1.2 爬虫的应用场景

1.3 HTTP 基础知识

1.3.1 常见 HTTP 方法

1.3.2 HTTP 状态码解析

1.3.3 HTTP 请求头与响应头

1.4 HTTP 头部（Header）的意义

1.4.1 常见 HTTP 头部字段

1.4.2 示例：使用 requests 访问百度并查看响应头

2. Python 爬虫开发

2.1 使用 requests 发送 HTTP 请求

2.2 解析 HTML 数据

2.2.1 使用 BeautifulSoup

2.2.2 使用 lxml

3. 反爬策略及应对

3.1 常见反爬机制

1. User-Agent 检测

2. IP 限制

3. 验证码验证

4. 动态内容加载

所有评论(0)

温馨提示：您尚未绑定手机号

昊昊该干饭了

1.4.2 示例：使用 `requests` 访问百度并查看响应头

2.1 使用 `requests` 发送 HTTP 请求

2.2.1 使用 `BeautifulSoup`

2.2.2 使用 `lxml`