Chuyển tới nội dung chính

Senior platform engineering guide

Kubernetes + LLM Platform Guide

Knowledge base thực chiến cho platform engineers: Kubernetes production, security, observability, GitOps, và LLM workloads trên GPU clusters.

Production Kubernetes cluster architecture

Learning map

Đi từ cluster primitives tới AI inference platform.

Operating model

Không học từng tool rời rạc.

Mỗi guide nối kỹ thuật với quyết định vận hành: khi nào dùng service đó, failure mode chính là gì, metric nào chứng minh hệ thống đang khỏe, và tradeoff nào ảnh hưởng trực tiếp tới latency, cost, hoặc security.

Design for failure domains before tuning replicas.

Prefer explicit platform contracts over tool sprawl.

Treat LLM serving as a latency and capacity problem, not only a model problem.