계속 꺼지는 etcd 컨테이너들
위 문제를 해결하기 위해서는 etcdctl 명령을 이용해서 etcd클러스터 구성원들의 과도한 키 스페이스 데이터들을 제거하고, 데이터베이스 조각모음을 수행해서 quota 범위 내로 크기를 되돌리는 과정이 필요합니다. 하지만, etcd 컨테이너들이 2~3분에 한번씩 죽어대는 바람에 제대로 작업을 진행하기가 불가능했습니다.
컨테이너가 계속 꺼지고 켜지기를 반복하는 이유는 컨테이너에 livenessProbe 설정이 세팅되어 있어서 etcd 컨테이너가 정상동작하지 않으면 healthcheck에 실패한 것으로 보고 컨테이너를 계속 재기동 하기 때문이었습니다. 우선 이 현상을 해결하기 위해서 etcd pod에 세팅되어 있는 livenessProbe 설정을 제거해 주기로 합니다. etcd는 kubernetes를 구성하는 핵심 구성요소 중 하나이기 때문에 /etc/kubernetes/manifests/ 디렉토리에 pod 구성정보가 존재합니다. 찾아서 수정해 줍니다.
|
# /etc/kubernetes/manifests/etcd.yaml |
|
|
|
apiVersion: v1 |
|
kind: Pod |
|
metadata: |
|
creationTimestamp: null |
|
labels: |
|
component: etcd |
|
tier: control-plane |
|
name: etcd |
|
namespace: kube-system |
|
spec: |
|
containers: |
|
- command: |
|
- etcd |
|
- --advertise-client-urls=https://192.168.0.220:2379 |
|
- --cert-file=/etc/kubernetes/pki/etcd/server.crt |
|
- --client-cert-auth=true |
|
- --data-dir=/var/lib/etcd |
|
- --election-timeout=5000 |
|
- --heartbeat-interval=250 |
|
- --initial-advertise-peer-urls=https://192.168.0.220:2380 |
|
- --initial-cluster=k8s-master1=https://192.168.0.220:2380 |
|
- --key-file=/etc/kubernetes/pki/etcd/server.key |
|
- --listen-client-urls=https://127.0.0.1:2379,https://192.168.0.220:2379 |
|
- --listen-metrics-urls=http://127.0.0.1:2381 |
|
- --listen-peer-urls=https://192.168.0.220:2380 |
|
- --name=k8s-master1 |
|
- --peer-cert-file=/etc/kubernetes/pki/etcd/peer.crt |
|
- --peer-client-cert-auth=true |
|
- --peer-key-file=/etc/kubernetes/pki/etcd/peer.key |
|
- --peer-trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt |
|
- --snapshot-count=10000 |
|
- --trusted-ca-file=/etc/kubernetes/pki/etcd/ca.crt |
|
image: k8s.gcr.io/etcd:3.3.15-0 |
|
imagePullPolicy: IfNotPresent |
|
# 컨테이너가 꺼지는 현상을 방지하기 위해 주석처리 해줍니다. |
|
# livenessProbe: |
|
# failureThreshold: 8 |
|
# httpGet: |
|
# host: 127.0.0.1 |
|
# path: /health |
|
# port: 2381 |
|
# scheme: HTTP |
|
# initialDelaySeconds: 15 |
|
# timeoutSeconds: 15 |
|
name: etcd |
|
resources: {} |
|
volumeMounts: |
|
- mountPath: /var/lib/etcd |
|
name: etcd-data |
|
- mountPath: /etc/kubernetes/pki/etcd |
|
name: etcd-certs |
|
hostNetwork: true |
|
priorityClassName: system-cluster-critical |
|
volumes: |
|
- hostPath: |
|
path: /etc/kubernetes/pki/etcd |
|
type: DirectoryOrCreate |
|
name: etcd-certs |
|
- hostPath: |
|
path: /var/lib/etcd |
|
type: DirectoryOrCreate |
|
name: etcd-data |
|
status: {} |
위와같은 주석처리를 모든 master 노드의 해당 경로에 존재한 yaml파일에 작업해주면, etcd 컨테이너가 죽지 않게 됩니다.
etcdctl 명령어
konvoy로 설치한 kubernetes에서 etcdctl 명령어를 사용하기 위해서 가장 정석적인 방법은 etcd 컨테이너 내에 접속해서 etcd 명령어를 사용하는 것이지만, 본인은 귀찮아서 그냥 컨테이너 밖에서 찾아서 사용해보기로 했습니다. (당연히 etcd컨테이너가 동작중인 master노드에서 해야합니다.)
|
#bash |
|
find / -type f -name etcdctl 2>/dev/null |
|
#출력예시 |
|
[root@k8s-master1 manifests]# find / -type f -name etcdctl 2>/dev/null |
|
/run/containerd/io.containerd.runtime.v1.linux/k8s.io/4fc80ceb99dfc0dca39e726d95104f5e424c53e618fd71d201b9b8b9c75a6d5d/rootfs/usr/local/bin/etcdctl |
|
/var/lib/containerd/io.containerd.snapshotter.v1.overlayfs/snapshots/9/fs/usr/local/bin/etcdctl |
둘중에 아무거나 선택해서 alias를 걸어서 사용하도록 합니다. alias를 걸어줄때 etcdctl 명령어로 클러스터와 통신할 때 사용하기 위한 인증서등을 함께 세팅해서 걸어줍니다.
|
#bash |
|
|
|
alias etcdctl="\ |
|
ETCDCTL_API=3 \ |
|
/var/lib/containerd/io.containerd.snapshotter.v1.overlayfs/snapshots/9/fs/usr/local/bin/etcdctl \ |
|
--cacert='/etc/kubernetes/pki/etcd/ca.crt' \ |
|
--cert='/etc/kubernetes/pki/etcd/server.crt' \ |
|
--key='/etc/kubernetes/pki/etcd/server.key' " |
테스트
|
#bash |
|
|
|
etcdctl member list |
문제 해결
우선, 알람이 설정되어 있는 목록과 현재 클러스터 상태를 확인합니다.
|
#bash |
|
|
|
etcdctl alarm list |
|
etcdctl -w table endpoint status --cluster |
etcd용량을 다이어트 해봅니다. 현재 상태를 제외한 나머지 오래된 revision들을 제거하기 위해 current revision 값을 가져옵니다.
|
#bash |
|
c_revision=$(etcdctl endpoint status --write-out="json" | egrep -o '"revision":[0-9]*' | egrep -o '[0-9].*') |
|
echo ${c_revision} |
오래된 revision들을 날립니다.
|
#bash |
|
etcdctl --endpoints=$(etcdctl member list | cut -d, -f5 | sed -e 's/ //g' | paste -sd ',') compact $c_revision |
조각모음을 합니다. 본인의 경우에는 이 작업에서 용량이 드라마틱하게 줄어들었습니다.
|
#bash |
|
etcdctl --endpoints=$(etcdctl member list | cut -d, -f5 | sed -e 's/ //g' | paste -sd ',') defrag |
클러스터 상태를 확인합니다.
|
#bash |
|
etcdctl -w table endpoint status --cluster |
|
#출력결과 |
|
+----------------------------+------------------+---------+---------+-----------+-----------+------------+ |
|
| ENDPOINT | ID | VERSION | DB SIZE | IS LEADER | RAFT TERM | RAFT INDEX | |
|
+----------------------------+------------------+---------+---------+-----------+-----------+------------+ |
|
| https://192.168.0.221:2379 | 1806ccfb80e73faf | 3.3.15 | 7.8 MB | false | 602 | 66877835 | |
|
| https://192.168.0.222:2379 | e7c82e12168d0897 | 3.3.15 | 7.8 MB | false | 602 | 66877835 | |
|
| https://192.168.0.220:2379 | edabb0b65fe02a4c | 3.3.15 | 7.8 MB | true | 602 | 66877835 | |
|
+----------------------------+------------------+---------+---------+-----------+-----------+------------+ |
경보를 해제하고 확인합니다.
|
#bash |
|
etcdctl alarm disarm |
|
etcdctl alarm list |