基础概念

什么是 CI/CD？

答：CI/CD 是持续集成（Continuous Integration）和持续交付/持续部署（Continuous Delivery/Deployment）的缩写，是现代软件开发中的核心实践。

持续集成（CI）：开发人员频繁地将代码提交到主干，每次提交后自动进行构建和测试，以便尽早发现集成问题
持续交付（CD）：在 CI 的基础上，将代码自动部署到测试环境或类生产环境，确保代码始终处于可发布状态
持续部署（CD）：在持续交付的基础上，将代码自动部署到生产环境，是自动化的最高级别

CI/CD 的优势有哪些？

答：CI/CD 的主要优势包括：

快速迭代：缩短发布周期，加快新功能上线
高质量：通过自动化测试尽早发现缺陷
降低风险：小步提交、快速回滚减少发布风险
提高效率：自动化重复性工作，减少人工干预
可追溯：完整的构建和部署记录，便于问题排查
一致性：标准化流程，确保环境一致性

CI、CD、CD 之间有什么区别？

答案：

概念	全称	含义	自动化程度
CI	Continuous Integration	持续集成	自动构建+测试
CD	Continuous Delivery	持续交付	自动构建+测试+部署到测试环境
CD	Continuous Deployment	持续部署	自动构建+测试+部署到生产环境

CI/CD 流水线包含哪些阶段？

答：一个完整的 CI/CD 流水线通常包含以下阶段：

代码提交：开发者将代码推送到版本控制系统
代码拉取：流水线从仓库拉取最新代码
代码扫描：静态代码分析、安全扫描
构建：编译代码、打包应用
单元测试：运行单元测试用例
集成测试：运行集成测试
端到端测试：模拟真实场景测试
** Artifact 存储**：存储构建产物
部署到测试环境：自动部署到测试环境
部署到生产环境：手动或自动部署到生产环境

GitOps

什么是 GitOps？

答：GitOps 是一种基于 Git 的运维实践，将 Git 作为基础设施和应用声明式配置的唯一真相来源。其核心思想是：

所有基础设施和应用配置存储在 Git 仓库中
使用 Git 的版本控制和审计功能
通过 Pull Request 管理变更
自动同步期望状态到实际环境
支持快速回滚和问题追溯

GitOps 的工作流程是怎样的？

答：GitOps 的典型工作流程：

开发者提交代码到应用仓库
CI 流水线构建镜像并推送到镜像仓库
更新 Git 仓库中的配置文件（如 K8s YAML）
GitOps 工具（如 ArgoCD、Flux）检测到配置变更
自动将变更同步到目标环境
验证实际状态与期望状态一致

GitOps 的优势有哪些？

答：GitOps 的主要优势：

单一真相来源：所有配置都在 Git 中管理
增强安全性：所有变更都经过代码审查
提高可靠性：易于回滚，状态可追溯
简化协作：开发者熟悉的 Git 工作流
自动化运维：减少手动操作，降低人为错误

流水线设计

如何设计一个高效的 CI/CD 流水线？

答：设计高效流水线的方法：

并行执行：将独立的阶段并行运行，减少总耗时
缓存优化：缓存依赖、构建产物加快构建速度
分阶段流水线：分离构建、测试、部署阶段
渐进式部署：金丝雀发布、蓝绿部署
快速反馈：尽快返回构建和测试结果
按需构建：避免重复构建，使用构建缓存

什么是流水线即代码（Pipeline as Code）？

答：流水线即代码是将流水线的定义和配置以代码的形式存储在版本控制系统中。主要优势包括：

版本控制：流水线的变更有完整的审计记录
代码审查：通过 PR 审查流水线变更
复用：易于在项目间共享和复用
一致性：确保流水线配置的一致性
自动化测试：可以测试流水线的正确性

常见的流水线工具有哪些？

答：常见的 CI/CD 流水线工具：

Jenkins：开源老牌工具，灵活性高
GitLab CI：与 GitLab 深度集成
GitHub Actions：GitHub 原生 CI/CD
CircleCI：云原生 CI/CD 平台
Travis CI：开源项目友好
Azure Pipelines：Azure DevOps 核心
ArgoCD：GitOps 持续交付工具
Tekton：Kubernetes 原生 CI/CD 框架

构建与测试

构建失败常见原因有哪些？

答：构建失败的常见原因：

依赖问题：依赖版本冲突、仓库不可用
代码冲突：合并冲突未解决
环境差异：开发环境与构建环境不一致
资源不足：内存、CPU、磁盘空间不足
权限问题：缺少文件访问权限
配置错误：构建脚本或配置文件错误
测试失败：单元测试或集成测试未通过

如何优化构建速度？

答：优化构建速度的方法：

使用构建缓存：Maven、npm、Gradle 等都支持缓存
并行构建：利用多核 CPU 并行编译
增量构建：只构建变更的部分
分布式构建：使用分布式编译工具
依赖预取：预先下载依赖
优化依赖：减少不必要的依赖
使用更快的构建工具：如使用 pnpm 替代 npm

什么是 Smoke Test？

答：Smoke Test（冒烟测试）是一组基本的、快速的测试，用于验证应用的核心功能是否正常工作。它通常在详细测试之前执行，确保主要功能可用。冒烟测试通过后，才会进行更全面的测试。

单元测试与集成测试的区别？

答案：

特性	单元测试	集成测试
测试范围	单个函数或类	多个组件交互
依赖	通常 mock 外部依赖	真实依赖或部分 mock
运行速度	非常快	较慢
隔离性	高	低
测试目的	验证单个模块功能	验证模块间协作

部署策略

什么是蓝绿部署？

答：蓝绿部署是一种零停机部署策略。维护两个完全相同的生产环境（蓝环境和绿环境），当前只有其中一个对外提供服务。当需要部署新版本时：

将新版本部署到非活动环境
在非活动环境进行验证
切换流量到新环境
监控新环境运行状态
如有问题，快速切换回旧环境
旧环境保留作为回滚备用

优点：快速回滚、零停机、减少部署风险缺点：需要双倍资源、成本较高

什么是金丝雀发布（Canary Release）？

答：金丝雀发布是一种渐进式部署策略，将新版本逐步推广到一小部分用户：

先将新版本部署到少量实例（5%-10%）
监控新版本的性能和错误率
如果正常，逐步增加流量（25%、50%、100%）
如果出现问题，快速回滚到旧版本

优点：降低发布风险、实时监控、渐进式曝光缺点：实现复杂、需要流量管理能力

什么是滚动更新（Rolling Update）？

答：滚动更新是一种逐步替换实例的部署策略：

逐批或逐个停止旧版本实例
启动新版本实例
等待新实例就绪后继续
重复直到所有实例更新完成

优点：无需额外资源、平滑升级缺点：更新周期长、可能出现新旧版本共存

什么是 A/B 测试？

答：A/B 测试是一种对比实验方法，同时运行两个或多个版本，通过对比不同版本的效果来决策：

A 版本：当前生产版本（对照组）
B 版本：新版本（实验组）
将流量按比例分配到不同版本
收集用户行为数据进行分析
选择效果更好的版本全面推广

容器与编排

Docker 在 CI/CD 中的作用？

答：Docker 在 CI/CD 中的作用：

环境一致性：开发、测试、生产环境一致
快速启动：秒级启动容器用于测试
隔离性：测试之间相互隔离
可移植性：一次构建，到处运行
资源效率：容器比虚拟机更轻量
并行测试：快速启动多个测试容器

Kubernetes 对 CI/CD 的影响？

答：Kubernetes 对 CI/CD 的影响：

声明式部署：用 YAML 定义期望状态
自愈能力：自动恢复失败的实例
滚动更新：内置滚动更新策略
服务发现：内置服务发现机制
水平扩展：根据负载自动扩缩容
资源管理：CPU、内存配额管理
多环境支持：通过 Namespace 隔离环境

什么是 GitLab Runner？

答：GitLab Runner 是 GitLab CI/CD 的执行器，负责运行流水线中的任务。它可以运行在多种环境中：

Shared Runner：所有项目共享的 Runner
Group Runner：项目组内共享的 Runner
Specific Runner：特定项目专用的 Runner

支持的执行器包括：Docker、Shell、SSH、Kubernetes、VirtualBox 等。

环境管理

多环境部署策略有哪些？

答：常见的多环境部署策略：

开发环境（Dev）：日常开发使用
测试环境（Test）：QA 团队测试使用
预发布环境（Staging）：生产环境的小规模复刻
生产环境（Prod）：最终用户访问的环境

环境变量如何安全管理？

答：环境变量安全管理方法：

不要硬编码：永远不要把敏感信息写入代码
使用密钥管理服务：如 AWS Secrets Manager、HashiCorp Vault
加密存储：敏感信息加密后存储
最小权限原则：只授予必要的访问权限
审计日志：记录所有访问和变更
轮换策略：定期更换密钥和密码

什么是基础设施即代码（IaC）？

答：基础设施即代码（IaC）是用代码定义和管理基础设施的实践。常见工具包括：

Terraform：跨云基础设施编排
Ansible：配置管理和应用部署
CloudFormation：AWS 基础设施即服务
Pulumi：用编程语言定义基础设施

优势：版本控制、可重复性、自动化、审计追踪

监控与反馈

CI/CD 流水线需要监控哪些指标？

答：CI/CD 流水线关键监控指标：

构建成功率：成功构建占总构建的比例
构建时间：从提交到构建完成的时间
部署频率：单位时间内的部署次数
变更前置时间：从代码提交到生产部署的时间
恢复时间（MTTR）：从故障恢复到正常的时间
测试覆盖率：自动化测试覆盖代码的比例
缺陷逃逸率：缺陷从测试环境逃逸到生产的比例

如何实现快速回滚？

答：快速回滚的实现方法：

版本化 Artifact：所有构建产物保留版本号
镜像标签：使用语义化标签或 Git SHA
配置外部化：配置与代码分离
数据库迁移：支持向前和向后迁移
蓝绿部署：保留上一版本完整环境
一键回滚：自动化回滚脚本或命令

什么是部署前置时间？

答：部署前置时间（Lead Time for Changes）是从代码提交到生产环境部署完成的时间。它是 DevOps 关键指标之一（来自 DORA 指标），反映团队交付能力的效率。缩短部署前置时间的方法包括：自动化流水线、小步提交、持续改进。

安全与合规

CI/CD 中的安全实践有哪些？

答：CI/CD 安全实践：

安全扫描：
- SAST：静态应用安全测试
- DAST：动态应用安全测试
- SCA：软件成分分析（检查依赖漏洞）
- 容器镜像扫描
密钥管理：使用密钥管理服务，不要硬编码
最小权限：流水线使用最小必要权限
代码审查：所有变更必须经过审查
签名验证：验证构建产物的完整性
审计日志：记录所有操作和变更

什么是 Shift Left 安全？

答：Shift Left 安全是将安全测试左移到软件开发生命周期的早期阶段。在 CI/CD 中，这意味着：

在编写代码时就考虑安全问题
在流水线早期集成安全扫描
在开发环境就发现和修复安全漏洞
而不是等到测试或生产阶段

优势：降低修复成本、减少安全漏洞

如何保护 CI/CD 流水线？

答：保护 CI/CD 流水线的方法：

访问控制：严格控制流水线配置的访问权限
分支保护：保护主干分支，禁止直接推送
签名验证：验证提交和构建产物的来源
安全扫描：集成安全扫描工具
隔离执行：敏感任务在隔离环境运行
审计日志：记录所有流水线活动
依赖安全：定期更新和扫描依赖

最佳实践

CI/CD 最佳实践有哪些？

答：CI/CD 最佳实践：

频繁提交：小步提交，快速反馈
快速构建：优化构建时间，目标 < 10 分钟
全面测试：单元测试、集成测试、端到端测试
自动化一切：减少手动操作
保持流水线简洁：避免过度复杂
失败快速反馈：及时通知相关人员
可重复构建：确保构建可重复
** Artifact 版本化**：所有产物保留版本
监控和度量：持续改进流水线

如何选择 CI/CD 工具？

答：选择 CI/CD 工具的考量因素：

与现有系统的集成：版本控制系统、代码托管平台
社区和支持：文档、插件生态、社区活跃度
可扩展性：支持大规模构建和分布式执行
安全性：访问控制、审计日志、加密
成本：开源免费还是商业付费
易用性：学习曲线、配置复杂度
云原生支持：容器和 Kubernetes 集成

什么是 MTTR？

答：MTTR（Mean Time To Recovery，平均恢复时间）是从系统故障恢复到正常服务的平均时间。它是衡量系统可靠性和运维效率的重要指标。DORA 研究表明，高性能团队的 MTTR 通常在 1 小时以内。

基础概念 ​

什么是 CI/CD？ ​

CI/CD 的优势有哪些？ ​

CI、CD、CD 之间有什么区别？ ​

CI/CD 流水线包含哪些阶段？ ​

GitOps ​

什么是 GitOps？ ​

GitOps 的工作流程是怎样的？ ​

GitOps 的优势有哪些？ ​

流水线设计 ​

如何设计一个高效的 CI/CD 流水线？ ​

什么是流水线即代码（Pipeline as Code）？ ​

常见的流水线工具有哪些？ ​

构建与测试 ​

构建失败常见原因有哪些？ ​

如何优化构建速度？ ​

什么是 Smoke Test？ ​

单元测试与集成测试的区别？ ​

部署策略 ​

什么是蓝绿部署？ ​

什么是金丝雀发布（Canary Release）？ ​

什么是滚动更新（Rolling Update）？ ​

什么是 A/B 测试？ ​

容器与编排 ​

Docker 在 CI/CD 中的作用？ ​

Kubernetes 对 CI/CD 的影响？ ​

什么是 GitLab Runner？ ​

环境管理 ​

多环境部署策略有哪些？ ​

环境变量如何安全管理？ ​

什么是基础设施即代码（IaC）？ ​

监控与反馈 ​

CI/CD 流水线需要监控哪些指标？ ​

如何实现快速回滚？ ​

什么是部署前置时间？ ​

安全与合规 ​

CI/CD 中的安全实践有哪些？ ​

什么是 Shift Left 安全？ ​

如何保护 CI/CD 流水线？ ​

最佳实践 ​

CI/CD 最佳实践有哪些？ ​

如何选择 CI/CD 工具？ ​

什么是 MTTR？ ​