k8s dns 缓存

Kubernetes DNS缓存机制用于加速域名解析，但缓存未及时更新可能导致解析失败，需

Kubernetes DNS 缓存机制详解

Kubernetes DNS 系统

Kubernetes 集群中默认使用 CoreDNS 作为域名解析服务（早期版本为 kubedns），DNS 服务主要负责以下解析：

将 myservice.default.svc.cluster.local 解析为 Service 的 ClusterIP
将 podip.namespace.svc.cluster.local 解析为 Pod 的 IP 地址
集群外部域名（如互联网域名）的转发

核心组件

组件名称	功能描述
CoreDNS	核心 DNS 服务器，处理 Service/Pod 解析及递归查询
kubednsautoscaler	根据负载自动扩展 CoreDNS 副本数（v1.19+）
dnsresolver	部署在 Pod 内的侧车容器，负责将 DNS 请求转发到上游 DNS 服务器
SkyDNS (历史)	v1.10 之前使用的 DNS 解决方案，已由 CoreDNS 取代

DNS 缓存机制原理

DNS 缓存分为 客户端缓存 和 服务端缓存 两级：

客户端缓存

实现位置：部署在 Pod 内的 dnsresolver 容器
缓存类型：
- 正向缓存：存储域名 > IP 映射
- 负向缓存：存储解析失败记录（如 NXDOMAIN）
默认参数：
- 缓存有效期：30秒（可通过 ndots 和 cache 配置调整）
- 最大缓存条目：5000条

工作机制：

graph TD
  A[Pod发起DNS请求] > B{dnsresolver缓存}
  B >|命中| C[直接返回结果]
  B >|未命中| D[转发到CoreDNS]
  D > E[CoreDNS查询]
  E > F{CoreDNS缓存}
  F >|命中| G[返回结果]
  F >|未命中| H[递归查询上级DNS]

服务端缓存（CoreDNS）

插件实现：Cache 插件（默认启用）
关键配置：
- Cache 插件的 TTL（TimeToLive）默认值：2分钟
- 支持基于域名的差异化缓存策略（如 .svc.cluster.local 长缓存,外部域名短缓存）
缓存刷新机制：
- 主动过期：超过 TTL 自动清除
- 被动清除：当 Service/Endpoints 资源变更时触发通知

缓存配置优化实践

调整客户端缓存策略

通过修改 Pod 的 dnsConfig 配置：

apiVersion: v1
kind: Pod
spec:
  dnsConfig:
    options:
      name: ndots
        value: "2" # 设置域名尾部点数量阈值（影响完全限定域名解析）
      name: timeout
        value: "2" # DNS查询超时时间（秒）
    nameservers:
      "10.96.0.10" # CoreDNS服务地址

优化 CoreDNS 缓存

编辑 CoreDNS ConfigMap（通常位于 kubesystem 命名空间）：

kubectl edit configmap coredns

添加或修改 Cache 插件配置：

.:53 {
    errors
    log
    health
    kubernetes cluster.local inaddr.arpa ip6.arpa {
      pods insecure
      fallthrough inaddr.arpa ip6.arpa
      ttl 30 # 设置缓存有效期（秒）
      cache 30 5m # 缓存条目30个，最大存储时间5分钟
    }
}

典型优化场景对比表

场景	原始配置	优化方案	预期效果
高频 Service 访问	TTL=2分钟	TTL=5分钟 + 预加载缓存	减少80%重复解析开销
外部域名解析	无分级缓存	启用 `proxy` 插件 + 独立缓存策略	降低跨境递归查询延迟
大规模集群环境	默认5000缓存条目	按命名空间拆分缓存配置	提升多租户场景下的稳定性

常见问题与解决方案

缓存雪崩问题

症状：大量缓存同时失效导致瞬时查询风暴
解决方案：

实现缓存预热：在 Service 创建时主动解析并缓存
随机化TTL：为不同域名设置±10%的随机偏差
限流保护：配置 CoreDNS 的 ratelimit 插件

缓存穿透问题

症状：持续查询不存在的域名导致递归查询压力过大
解决方案：

启用负向缓存（CoreDNS默认开启）
配置 errors 插件记录解析错误
设置查询频率限制（如 10r/m）

监控与故障排查

关键监控指标

指标名称	监控方式	阈值建议
DNS查询延迟	Prometheus + CoreDNS metrics	>500ms视为异常
缓存命中率	`coredns_cache_hit_total`	<95%需优化缓存策略
递归查询次数	`coredns_recursor_queries_total`	突增可能表示缓存失效

故障排查步骤

验证基础配置：

nslookup myservice.default.svc.cluster.local 10.96.0.10

检查 CoreDNS 日志：

kubectl logs n kubesystem deployment/coredns c details

分析缓存状态：

# 查看缓存条目数
kubectl exec n kubesystem deployment/coredns corednscheck cache

压力测试：
使用 dig + for 循环模拟高并发场景

for i in {1..100}; do dig +nocmd A myservice.default.svc.cluster.local; done

相关问题与解答

Q1: 如何手动清除 CoreDNS 的缓存？

A1：CoreDNS 不提供直接清除缓存的接口,但可以通过以下方式间接实现：

重启 CoreDNS Pod：强制重建缓存（会影响所有命名空间）
```
kubectl rollout restart deployment/coredns n kubesystem
```

删除特定 Service：触发缓存自动清除

kubectl delete svc myservice n default && kubectl apply f myservice.yaml

调整 TTL 参数：将 Cache 插件的 TTL 设置为极小值（如5秒），加速缓存过期

Q2: 如何监控特定命名空间的 DNS 性能？

A2：通过以下步骤实现细粒度监控：

启用命名空间维度的指标采集：
在 Prometheus 配置中添加基于标签的抓取规则：

job_name: 'kubernetescoredns'
kubernetes_sd_configs:
role: endpoint
 honor_labels: true
 relabel_configs:
 source_labels: [__meta_kubernetes_namespace]
   action: keep
   regex: '^(命名空间名称)$'

创建专属监控面板：在 Grafana 中创建命名空间过滤的仪表盘，重点关注：
- coredns_query_duration_bucket（各延迟区间占比）
- coredns_cache_miss_total

来源互联网整合，作者：小编，如若转载，请注明出处：https://www.aiboce.com/ask/203309.html