☁️ 云计算基础

现代IT基础设施 - 弹性、可扩展、按需付费

🏢 IaaS/PaaS/SaaS 🌍 AWS/Azure/GCP 📦 容器编排 ⚡ Serverless

什么是云计算?

云计算(Cloud Computing)是一种按需提供计算资源(包括服务器、存储、数据库、网络、软件等)的模式, 用户无需拥有和管理物理基础设施,通过互联网即可按需使用、按量付费。

在AI领域,云计算是训练和部署大模型的基础,提供强大的GPU算力、弹性的存储空间和全球化的服务能力。

按需自助服务

无需人工介入,用户自行配置和管理资源

🌐

广泛网络访问

通过标准机制访问,支持多种设备

🔄

资源池化

多租户模式,资源动态分配和回收

📈

快速弹性伸缩

根据负载自动扩容缩容,应对流量高峰

💰

可计量服务

按使用量计费,成本透明可控

🌍

全球化部署

多地域多可用区,高可用高性能

🏗️ 云计算服务模式

IaaS / PaaS / SaaS 层级关系

graph TB subgraph Traditional["🏢 传统IT架构"] T1["应用程序"] T2["数据"] T3["运行时环境"] T4["中间件"] T5["操作系统"] T6["虚拟化"] T7["服务器"] T8["存储"] T9["网络"] end subgraph IaaS["☁️ IaaS - 基础设施即服务"] I1["应用程序 👤 你管理"] I2["数据 👤 你管理"] I3["运行时 👤 你管理"] I4["中间件 👤 你管理"] I5["操作系统 👤 你管理"] I6["虚拟化 ☁️ 云厂商"] I7["服务器 ☁️ 云厂商"] I8["存储 ☁️ 云厂商"] I9["网络 ☁️ 云厂商"] end subgraph PaaS["☁️ PaaS - 平台即服务"] P1["应用程序 👤 你管理"] P2["数据 👤 你管理"] P3["运行时 ☁️ 云厂商"] P4["中间件 ☁️ 云厂商"] P5["操作系统 ☁️ 云厂商"] P6["虚拟化 ☁️ 云厂商"] P7["服务器 ☁️ 云厂商"] P8["存储 ☁️ 云厂商"] P9["网络 ☁️ 云厂商"] end subgraph SaaS["☁️ SaaS - 软件即服务"] S1["应用程序 ☁️ 云厂商"] S2["数据 👤 你管理"] S3["运行时 ☁️ 云厂商"] S4["中间件 ☁️ 云厂商"] S5["操作系统 ☁️ 云厂商"] S6["虚拟化 ☁️ 云厂商"] S7["服务器 ☁️ 云厂商"] S8["存储 ☁️ 云厂商"] S9["网络 ☁️ 云厂商"] end style Traditional fill:#f3f4f6 style IaaS fill:#dbeafe style PaaS fill:#ddd6fe style SaaS fill:#fce7f3
🏗️

IaaS

基础设施即服务

核心概念

提供虚拟化的计算资源、存储和网络

典型产品

AWS EC2 Azure VM GCP Compute 阿里云ECS

你需要管理

  • ✓ 操作系统
  • ✓ 中间件
  • ✓ 应用程序
  • ✓ 数据

适用场景

需要完全控制的企业应用、大数据处理

⚙️

PaaS

平台即服务

核心概念

提供应用开发和运行平台

典型产品

Heroku GAE Azure App Cloud Run

你需要管理

  • ✓ 应用程序代码
  • ✓ 应用配置
  • ✓ 数据

适用场景

快速开发部署、SaaS应用、微服务

📱

SaaS

软件即服务

核心概念

提供可直接使用的应用软件

典型产品

Gmail Salesforce Office 365 钉钉

你需要管理

  • ✓ 业务数据
  • ✓ 用户配置

适用场景

办公协作、CRM、邮件系统、AI API

🌍 主流云平台对比

AWS

Amazon Web Services

全球市场份额 32%

核心服务

EC2, S3, Lambda, RDS, SageMaker

AI优势

SageMaker全托管、Bedrock基础模型

特点

服务最全、生态最成熟

Azure

Microsoft Azure

全球市场份额 23%

核心服务

VM, Blob Storage, Functions, SQL

AI优势

Azure OpenAI独家合作

特点

企业集成强、Office生态

GCP

Google Cloud Platform

全球市场份额 11%

核心服务

Compute Engine, Cloud Storage, GKE

AI优势

TPU独占、Vertex AI、Gemini API

特点

AI原生、大数据分析强

阿里云

Alibaba Cloud

国内市场份额 40%+

核心服务

ECS, OSS, ACK, RDS, PAI

AI优势

通义千问、PAI平台

特点

国内最大、本地化服务

🤖 AI云计算架构

AI训练与推理云架构

graph TB subgraph User["👥 用户层"] WebApp["Web应用"] Mobile["移动App"] API["API调用"] end subgraph Edge["⚡ 边缘层 Edge"] CDN["CDN加速"] EdgeCompute["边缘计算"] LoadBalancer["负载均衡"] end subgraph AppLayer["🎨 应用层"] WebServer["Web服务器"] APIGateway["API网关"] Cache["Redis缓存"] end subgraph AIService["🤖 AI服务层"] Inference["推理服务
vLLM/TRT"] VectorDB["向量数据库
Milvus/Pinecone"] RAG["RAG引擎"] Agent["Agent编排"] end subgraph Training["🎓 训练层"] GPUCluster["GPU集群
分布式训练"] DataPipeline["数据流水线"] MLOps["MLOps平台"] end subgraph Storage["💾 存储层"] ObjectStorage["对象存储 S3"] Database["关系数据库"] DataLake["数据湖"] end subgraph Infra["🏗️ 基础设施层"] Compute["计算 EC2/VM"] Network["网络 VPC"] Monitor["监控告警"] end User --> Edge Edge --> AppLayer AppLayer --> AIService AIService --> Training AIService --> Storage Training --> Storage AppLayer --> Storage Storage --> Infra AIService --> Infra Training --> Infra style User fill:#e0e7ff style Edge fill:#dbeafe style AppLayer fill:#dcfce7 style AIService fill:#fce7f3 style Training fill:#fef3c7 style Storage fill:#fed7aa style Infra fill:#e5e7eb

容器化

  • • Docker容器
  • • 镜像管理
  • • 容器编排
  • • Harbor仓库

服务编排

  • • Kubernetes
  • • Helm Charts
  • • Service Mesh
  • • Istio/Linkerd

Serverless

  • • AWS Lambda
  • • Cloud Functions
  • • 事件驱动
  • • 函数计算

监控运维

  • • Prometheus
  • • Grafana
  • • Jaeger追踪
  • • ELK日志

💰 云计算成本优化

计费模式

按需付费

灵活但成本较高,适合测试环境

预留实例

承诺使用期限,折扣30-75%

竞价实例

使用闲置资源,折扣高达90%

优化策略

  • ✓ 自动伸缩:根据负载动态调整
  • ✓ 资源标签:精细化成本归属
  • ✓ 闲置资源:定期清理unused资源
  • ✓ 存储分层:热冷数据分层存储
  • ✓ 预算告警:设置成本阈值告警
  • ✓ 右sizing:选择合适规格实例

AI成本优化

  • ✓ GPU按需使用:训练完即释放
  • ✓ 模型量化:减少推理资源消耗
  • ✓ 批处理推理:提高GPU利用率
  • ✓ Spot实例:训练任务用竞价
  • ✓ 混合部署:云+边缘+本地
  • ✓ 缓存策略:减少重复推理