1.1 确定业务峰值与关键指标:先统计过去 30/90 天的峰值并发连接数、每秒请求数(RPS)、带宽峰值和平均值、单会话平均流量和会话持续时长。
1.2 设定扩容触发阈值:建议设置触发阈值为基线的 1.3–1.5 倍,例如RPS>基线×1.4且持续3分钟即触发;同时设置保护阈值(例如流量>基线×3)触发紧急防护。
2.1 机房位置:优先选择东京或大阪有Anycast/BGP接入、具备清洗中心(scrubbing center)的机房,靠近用户以降低延迟。
2.2 防护规格:确认提供商按“清洗带宽”和“清洗能力(pps/conn)”计费与分级,选择能覆盖预计最大攻击(例如计划承受100Gbps攻击则选>100Gbps或按按需清洗计费)。
3.1 Anycast与BGP:咨询供应商是否提供Anycast IP或可在攻击时公告到清洗中心的BGP路由,确保在租用合约中写明BGP切换流程与时延。
3.2 DNS与TTL:将域名指向负载均衡器或Anycast IP,设置低TTL(如60秒)以便快速切换到备用节点。配置次要DNS策略以支持地域故障转移。
4.1 内置或云负载均衡:部署L4/L7负载均衡(建议采用能与高防联动的LB),配置健康检查(HTTP 200/ TCP端口检查,间隔10s,连续失败3次下线)。
4.2 会话保持与粘性:若应用需要粘性,使用cookie或IP hash,并在扩缩容时保证状态同步或使用共享会话存储(Redis/数据库)。
5.1 网络ACL与安全组:按最小权限放行端口,仅开放必须端口(80/443/特定API端口),对管理口(SSH/RDP)限制来源IP并换用VPN或跳板机。
5.2 WAF规则与速率限制:启用WAF并根据日志自定义规则(阻断异常User-Agent、SQLi、XSS),设置IP/URI级别限流(例如:每IP每秒不超过20次请求)。
6.1 选择扩容方式:推荐水平扩容(增加实例)结合LB,垂直扩容(升级规格)用于短时内提高单台性能。
6.2 自动化触发:在监控系统(Prometheus/CloudWatch/供应商监控)设置告警与自动伸缩策略,示例策略:当平均RPS>阈值且CPU>60% 触发扩容,反向低于阈值连续10分钟触发缩容。
6.3 用API实现扩缩容(示例curl):
curl -X POST "https://api.yourprovider.jp/v1/servers/scale" -H "Authorization: Bearer YOUR_TOKEN" -d '{"group_id":"sg-xxxxx","action":"scale_out","count":2}' // 扩容2台
curl -X POST "https://api.yourprovider.jp/v1/servers/scale" -H "Authorization: Bearer YOUR_TOKEN" -d '{"group_id":"sg-xxxxx","action":"scale_in","count":1}' // 缩容1台
7.1 制作基础镜像:在基底实例上安装应用依赖、监控 agent、日志收集 agent(Fluentd/Logstash),制作镜像用作扩容模板。
7.2 启动脚本与配置拉取:在用户数据或启动脚本中自动从配置管理工具(Ansible/Chef/Puppet/Consul)拉取最新配置并执行健康自检,例如:
#!/bin/bash apt-get update && apt-get install -y nginx curl -sS https://config-server/instance-config | bash systemctl start app.service
8.1 监控项:带宽/pps/conn、RPS、CPU、内存、磁盘、后端错误率、LB未命中/命中率、WAF拦截统计。
8.2 告警与自动化工单:设置短信/微信/邮件告警并自动触发伸缩API和运维工单,确保SLA内有人工响应链路。记录每次扩容事件日志以便回溯。
9.1 压力测试工具:使用ab、wrk、k6或专业流量生成器进行功能性与破坏性测试(非生产IP避免违法)。
9.2 实操演练步骤:先在预生产环境按以下顺序演练:正常流量 -> 阈值触发扩容 -> 验证新增节点健康 -> 模拟异常(部分节点故障/网络抖动) -> 验证LB & DNS切换与降级策略 -> 完成缩容。记录脚本、时间点与结果。
10.1 答:第一步立即通过供应商控制台或API将流量导向清洗(示例API请求如下),同时将DNS指向Anycast/清洗IP并提高日志级别以便追踪攻击特征。

示例API:curl -X POST "https://api.yourprovider.jp/v1/mitigation/enable" -H "Authorization: Bearer YOUR_TOKEN" -d '{"target_ip":"1.2.3.4","mode":"scrub","priority":"high"}'。随后调整WAF规则与速率限制,记录攻击源并在清洗完成后逐步恢复正常路由。
11.1 答:按需确实可能短期内增加费用,控制方法包括:设置最大扩容上限、使用自动缩容策略(空闲时间阈值)、提前预留基础防护带宽并仅对超出部分按需计费;同时监控告警只在真正流量激增时才触发扩容,避免误触。
另外可启用分级防护:基础包覆盖常规攻击峰值,紧急清洗仅在超限时启用并记录成本明细以便成本归因与优化。
12.1 答:验证步骤:1) 扩容后通过LB健康检查面板确认新增实例状态为“通过”;2) 使用真实或模拟用户会话访问应用并监控会话ID或cookie是否丢失;3) 若使用粘性会话,验证新实例是否能从共享会话存储(Redis/DB)读取会话数据;4) 检查应用日志与监控面板中的错误率、5xx数量和请求延时是否在可接受范围内。完成后执行回归测试并记录。