解决Kubernetes集群故障的思路和方法

时间：2024-10-23 10:03:19来源：Lwgzc手游网作者：佚名我要评论用手机看

扫描二维码随身看资讯

使用手机二维码应用扫描右侧二维码，您可以
1. 在手机上细细品读~
2. 分享给您的微信好友或朋友圈~

前几天，一位朋友的Kubernetes集群遇到了问题，他请求我帮忙进行恢复。由于现场信息有限，我在这里分享一下解决问题的思路和方法。

环境问题

该环境只有一个master节点，控制面pod（如etcd、scheduler等）也只有一个pod。

问题起因是他们的服务访问出现了问题。为了修复这个问题，他采取了以下措施：

备份了3天前的etcd数据
重启了docker
将3天前的etcd数据进行恢复

然而，即便采取了这些措施，服务依然无法正常访问。

问题诊断

Deployment版本不匹配

首先发现pod并非处于 running 状态，因此删除了pod，让其重新创建。然而，在查看pod创建过程中发现，pod并没有被分配到节点。

问题分析

首先怀疑可能是kube-scheduler出现了问题：

删除kube-scheduler pod后发现无法重新创建该pod
最终通过将 /etc/kubernetes/manifests/kube-scheduler.yaml 文件移出再移入的方式成功创建了scheduler pod

然而，尽管这样做了，仍然无法调度pod。因此怀疑在scheduler之前出现了问题。查看api-server的日志后发现，出现了很多reversion版本不匹配的错误，应该是集群中的资源版本和etcd中的资源版本不匹配导致的。

使用etcdctl检查etcd的状态，发现etcd一切正常

etcdctl endpoint health
etcdctl endpoint status --write-out=table

使用 kubectl rollout history deployment/<deployment_name> 查看etcd中保存的deployment的版本，然后执行 kubectl rollout undo daemonset/<deployment_name> --to-revision=<version> 回滚到与etcd匹配的版本。

回滚之前可以通过 kubectl rollout history daemonset/<deployment_name> --revision=<version> 对比etcd和环境中的配置区别
回滚之后发现pod可以正常创建出来

Iptables丢失问题

即使pod重新启动后，服务访问仍然不通。使用 kubectl describe 命令查看服务的service后，发现没有找到service对应的endpoints。经过一番调试后，发现绝大部分services都没有endpoints。

问题分析

service找不到endpoints，在系统中体现为可能没有创建出iptables规则：

使用 iptables-save 命令查看，发现果然没有kubernetes的iptables规则
该环境使用的是ipvs模式，使用 ipvsadm -l -n 也发现service的cluster IP没有对应的pod IP
查看kube-proxy日志，并未发现任何异常

此时想到的解决方式有：

重新创建pod和对应的service，刷新iptables ：尝试失败，重建之后并未生成iptables
重建节点 ：所有节点都存在问题，无法通过 kubectl drain 迁移pod
手动添加iptables ：太过复杂，即便成功，也会污染节点的iptables规则
重新创建kube-proxy pod ：重启kube-proxy pod之后也并未创建iptables规则

最后怀疑kube-proxy也可能出现问题，需要重新初始化kube-proxy。幸运的是，kubeadm提供了如下命令可以重新初始化kube-proxy：

kubeadm init phase addon kube-proxy --kubeconfig ~/.kube/config --apiserver-advertise-address <api-server-ip>

在重新初始化kube-proxy之后，发现iptables规则创建成功。删除并创建pod和service之后可以正确创建出对应的iptables规则，此时service也有了endpoints。

CNI连接错误

在上一步重启pod之后，发现一个名为webhook的pod没有成功重启。使用 kubectl describe 命令查看该pod后，发现如下错误：

networkPlugin cni failed to set up pod "webhook-1" network: Get "https://[10.233.0.1]:443/api/v1/namespaces/volcano-system": dial tcp 10.233.0.1:443: i/o timeout

该集群使用的是calico CNI，查看该CNI对应的daemonset后，发现只有5个pod是ready的。

删除"webhook-1" pod所在的节点的"calico-node" pod后，发现该"calico-node" pod启动失败。

问题分析

在上述错误中，"10.233.0.1"为kubernetes apiserver的service cluster IP。由于"clico-node" pod使用的是 hostnetwork ，因此可以直接在node上测试联通性。使用 telnet 10.233.0.1 443 测试后，发现果然不通。

calico的 /etc/cni/net.d/10-calico.conflist 配置文件中定义了连接apiserver所需的 kubeconfig 文件：

{
  "name": "cni0",
  "cniVersion":"0.3.1",
  "plugins":[
    {
      ... 
      "kubernetes": {
        "kubeconfig": "/etc/cni/net.d/calico-kubeconfig"
      }
    },
    ...
  ]
}

而 /etc/cni/net.d/calico-kubeconfig 中就定义了连接apiserver所需的地址和端口。因此只需将该地址端口换成apiserver pod的地址和端口应该就可以解决该问题：

# cat /etc/cni/net.d/calico-kubeconfig
# Kubeconfig file for Calico CNI plugin.
apiVersion: v1
kind: Config
clusters:
- name: local
  cluster:
    server: https://[10.233.0.1]:443
    certificate-authority-data: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0...
users:
- name: calico
  user:
    token: eyJhbGciOiJSUzI1NiIsImtpZC...
contexts:
- name: calico-context
  context:
    cluster: local
    user: calico

Calico提供了如下两个环境变量用于修改生成的kubeconfig中的apiserver的地址和端口，将如下环境变量加入calico的daemonset，重新创建 calico-node pod即可：

- name: KUBERNETES_SERVICE_HOST
  value: <api-server-pod-ip>
- name: KUBERNETES_SERVICE_PORT
  value: "6443"

至此，问题基本解决。由于错误的操作，该集群出现了大量问题，后续可以通过驱逐节点pod的方式，重新初始化整个节点，逐步重置集群节点配置。

热门手游下载

相关文章

热门文章

推荐专题

热门手游推荐 换一批

下载排行榜

解决Kubernetes集群故障的思路和方法

扫描二维码随身看资讯

环境问题

问题诊断

Deployment版本不匹配

问题分析

Iptables丢失问题

问题分析

CNI连接错误

问题分析

违和感推理游戏

生物创造器无广告

无猜扫雷

玻璃人射击逃亡

地铁跑酷主播同款直充版下载 v5.04.0 安卓版

新麻将连连看消消乐

托卡3D版全部版中文版下载 v2.2.2 安卓版

天天酷跑3d单机游戏

愤怒的小鸟2无限金币无限钻石破解下载 v3.22.0 安卓版

植物大战僵尸杂交版安卓正版

加查之花正版

爪女孩最新版

捕鱼大世界无限金币版

企鹅岛官方正版中文版

内蒙打大a真人版

跳跃之王手游

球球英雄手游

情商天花板 2024最新版

烦人的村民手机版

大富翁go 官网版