告别资源浪费！Dolly推理服务Kubernetes自动扩缩容实战指南

GitHub 加速计划 / do / dolly 是基于 Databricks 机器学习平台训练的大型语言模型，为用户提供高效的 AI 推理能力。在实际应用中，Dolly 推理服务的资源消耗常因请求量波动而不稳定，导致资源浪费或服务响应延迟。本文将详细介绍如何利用 Kubernetes 实现 Dolly 推理服务的自动扩缩容，帮助用户优化资源使用，提升服务稳定性。## 为什么需要自动扩缩容？

史艾岭

1023人浏览 · 2026-02-04 05:26:02

史艾岭 · 2026-02-04 05:26:02 发布

告别资源浪费！Dolly推理服务Kubernetes自动扩缩容实战指南

【免费下载链接】dolly Databricks’ Dolly, a large language model trained on the Databricks Machine Learning Platform 项目地址: https://gitcode.com/gh_mirrors/do/dolly

为什么需要自动扩缩容？

Dolly 作为大型语言模型，其推理服务对计算资源要求较高。在请求量较少时，固定的资源配置会造成 CPU、内存等资源的闲置浪费；而在请求高峰期，若资源不足则会导致服务响应缓慢，影响用户体验。Kubernetes 的自动扩缩容功能能够根据实际负载动态调整资源，实现资源利用最大化与服务质量的平衡。

准备工作：环境与依赖

安装 Kubernetes 集群

确保已部署 Kubernetes 集群（1.21+ 版本推荐），并配置好 kubectl 命令行工具。集群节点需满足 Dolly 推理服务的最低资源要求（建议每节点至少 8GB 内存、4 核 CPU）。

获取 Dolly 项目代码

通过以下命令克隆项目仓库：

git clone https://gitcode.com/gh_mirrors/do/dolly

配置推理服务镜像

Dolly 推理服务可通过 Docker 容器化部署。项目中提供的 examples/pipeline.py 脚本可用于构建推理流程，结合 Dockerfile 生成镜像（需用户自行编写 Dockerfile，定义基础环境及推理服务启动命令）。

Kubernetes 自动扩缩容核心配置

1. 部署 Dolly 推理服务 Deployment

创建 dolly-inference-deployment.yaml，定义 Deployment 资源：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: dolly-inference
spec:
  replicas: 3  # 初始副本数
  selector:
    matchLabels:
      app: dolly-inference
  template:
    metadata:
      labels:
        app: dolly-inference
    spec:
      containers:
      - name: dolly-inference
        image: dolly-inference:latest  # 替换为实际镜像名
        ports:
        - containerPort: 8080
        resources:
          requests:
            cpu: "1"
            memory: "4Gi"
          limits:
            cpu: "2"
            memory: "8Gi"
        livenessProbe:
          httpGet:
            path: /health
            port: 8080
          initialDelaySeconds: 30
          periodSeconds: 10

2. 创建 HPA（Horizontal Pod Autoscaler）

通过 HPA 实现基于 CPU/内存使用率的自动扩缩容。创建 dolly-hpa.yaml：

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: dolly-inference-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: dolly-inference
  minReplicas: 2  # 最小副本数
  maxReplicas: 10  # 最大副本数
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70  # CPU 使用率阈值
  - type: Resource
    resource:
      name: memory
      target:
        type: Utilization
        averageUtilization: 80  # 内存使用率阈值

3. 应用配置并验证

执行以下命令部署服务及 HPA：

kubectl apply -f dolly-inference-deployment.yaml
kubectl apply -f dolly-hpa.yaml

通过 kubectl get hpa 查看 HPA 状态，确认扩缩容配置生效：

NAME                   REFERENCE                         TARGETS         MINPODS   MAXPODS   REPLICAS   AGE
dolly-inference-hpa    Deployment/dolly-inference        30%/70%, 40%/80%  2         10        3          5m

高级优化：基于自定义指标的扩缩容

除 CPU/内存外，可基于 Dolly 推理服务的自定义指标（如请求队列长度、推理延迟）进行扩缩容。需部署 Prometheus + Grafana 监控栈，并通过 PrometheusAdapter 暴露指标。

1. 暴露推理服务指标

在 Dolly 推理服务中集成指标采集（如使用 Prometheus Python 客户端），暴露 /metrics 端点，示例代码片段（可添加至 examples/generation.py）：

from prometheus_client import Counter, Histogram, start_http_server

REQUEST_COUNT = Counter('dolly_inference_requests_total', 'Total inference requests')
INFERENCE_LATENCY = Histogram('dolly_inference_latency_seconds', 'Inference latency in seconds')

@app.route('/inference', methods=['POST'])
def inference():
    REQUEST_COUNT.inc()
    with INFERENCE_LATENCY.time():
        # 推理逻辑
        result = generate_text(request.json['prompt'])
    return jsonify(result)

if __name__ == '__main__':
    start_http_server(8000)  # 指标暴露端口
    app.run(host='0.0.0.0', port=8080)

2. 配置 HPA 自定义指标

修改 HPA 配置，添加基于请求量的扩缩容规则：

metrics:
- type: Pods
  pods:
    metric:
      name: dolly_inference_requests_total
    target:
      type: AverageValue
      averageValue: 10  # 平均每个 Pod 每秒处理 10 个请求

最佳实践与注意事项

资源配置调优：根据 Dolly 模型大小（如 7B/13B 参数）调整容器资源 limits，避免 OOM 错误。可参考 config/a100_config.json 中的硬件配置建议。
扩缩容稳定性：设置合理的扩缩容冷却时间（stabilizationWindowSeconds），避免频繁扩缩导致服务抖动。
监控告警：通过 Grafana 配置扩缩容触发告警，及时发现资源异常。关键指标包括：HPA 副本数变化、Pod 启动时间、推理成功率。
测试验证：使用 Locust 等工具模拟流量波动，验证自动扩缩容效果。例如，设置并发用户从 10 增至 100，观察 Pod 数量是否自动增加。