Grafana + MySQL + Loki + Promtail + InfluxDB + Telegraf で kubernetes を monitoring する
kubernetes の monitoring 環境について紹介します。MicroK8s の addon で grafana + prometheus が利用可能ですが、 RaspberryPi では少し重たいと感じたため、カスタマイズしてリソースを調整できる monitoring 環境を構築しようと思ったのが始まりでした。ログについては promtail で 収集し Loki に保存しています。 リソースについては telegraf で収集し、 Influxdb に保存しています。 また、各メトリクスの収集量が多く Grafana に内包されている SQLite では負荷に耐えきれないため、 Grafana は MySQL データベースと連携させています。
Github に Kubernetes 用のコードをアップロードしています。
シークレット周りを含んだ password.txt, token.txt, telegraf.conf, grafana.ini ファイルの作成する。 kustomization.yaml で Storage 周りを設定し deploy します。
https://github.com/AbeYuki/monitoring-k8s.git
Dashborad は Grafana.com アプロードしていますので import して利用可能です。
ファイル一覧
git clone https://github.com/AbeYuki/monitoring-k8s.git
シークレットを含んだ4つのファイルの作成を行い deploy します。
.
├── README.md
├── dashboards
│ ├── loki_AccesseLogs.json
│ ├── loki_NamespaceLogs.json
│ ├── loki_SystemLogs.json
│ ├── telegraf_KubernetesResources.json
│ └── telegraf_SystemResources.json
├── docs
│ ├── datasource-influxdb.png
│ ├── datasource-loki.png
│ ├── ui-loki.png
│ ├── ui-telegraf-network.png
│ └── ui-telegraf-resources.png
├── grafana
│ ├── deployment-backend-grafana-db01.yaml
│ ├── deployment-frontend-grafana-app01.yaml
│ └── grafana.ini ★追加
├── influxdb
│ ├── configmap-influxdb-init01.yaml
│ └── deployment-backend-influxdb-db01.yaml
├── kustomization.yaml
├── label-transformer.yaml
├── loki
│ ├── config.yaml
│ └── deployment-frontend-loki-app01.yaml
├── namespace.yaml
├── password.txt ★追加
├── promtail
│ ├── config.yaml
│ └── daemonset-backend-agent01.yaml
├── rbac
│ ├── rbac-influxdb.yaml
│ ├── rbac-prometheus.yaml
│ ├── rbac-promtail.yaml
│ └── rbac-telegraf.yaml
├── telegraf
│ ├── daemonset-backend-agent01.yaml
│ └── telegraf.conf ★追加
└── token.txt ★追加
README.md がある ディレクトリへ移動
cd monitoring-k8s/
kustomization.yaml と連携するシークレット作成
echo -n 'password' > password.txt
echo -n 'token' > token.txt
grafana.ini 作成
修正箇所は database と session 情報を kustomization.yaml で作成した password.txt の情報に修正します。
[database]
password = 修正
mysql://grafana:修正~
[session]
provider_config = `grafana:修正@tcp~
下記は上記の kustomization.yaml の例で作成したシークレットを記載しています。
cat <<'EOF'> grafana/grafana.ini
[server]
protocol = http
http_port = 3000
[database]
type = mysql
host = monitoring-backend-grafana-db01-001:3306
name = grafana
user = grafana
password = password
ssl_mode = disable
mysql://grafana:password@monitoring-backend-grafana-db01-001:3306/grafana
[session]
provider_config = `grafana:password@tcp(monitoring-backend-grafana-db01-001:3306)/grafana`
provider = mysql
[analytics]
reporting_enabled = false
check_for_updates = true
[log]
mode = console
level = info
[paths]
data = /var/lib/grafana/data
logs = /var/log/grafana
plugins = /var/lib/grafana/plugins
provisioning = /etc/grafana/provisioning
[unified_alerting]
enabled = true
[datasources]
[remote_cache]
[dataproxy]
[security]
[snapshots]
[dashboards]
[users]
[auth]
[auth.anonymous]
[auth.github]
[auth.gitlab]
[auth.google]
[auth.grafana_com]
[auth.azuread]
[auth.okta]
[auth.generic_oauth]
[auth.basic]
[auth.proxy]
[auth.jwt]
[auth.ldap]
[aws]
[azure]
[smtp]
[emails]
[log]
[log.console]
[log.file]
[log.syslog]
[log.frontend]
[quota]
[unified_alerting]
[alerting]
[annotations]
[annotations.dashboard]
[annotations.api]
[explore]
[metrics]
[metrics.environment_info]
[metrics.graphite]
[grafana_com]
[tracing.jaeger]
[external_image_storage]
[external_image_storage.s3]
[external_image_storage.webdav]
[external_image_storage.gcs]
[external_image_storage.azure_blob]
[external_image_storage.local]
[rendering]
[panels]
[plugins]
[live]
[plugin.grafana-image-renderer]
[log]
[enterprise]
[feature_toggles]
[date_formats]
[expressions]
[geomap]
EOF
telegraf.conf 作成
kustomization.yaml で指定したトークンに修正、disk 等の監視対象の調整を行い telegraf/telegraf.conf ファイル作成
[[outputs.influxdb_v2]]
token = "修正"
[[inputs.disk]]
fstype = [ "ext4", "xfs" ]
path = [ "/", "/backup", "/var/lib/longhorn" ]
cat <<'EOF'> telegraf/telegraf.conf
[agent]
interval = "60s"
round_interval = true
metric_batch_size = 1000
metric_buffer_limit = 10000
collection_jitter = "0s"
flush_interval = "10s"
flush_jitter = "0s"
precision = ""
hostname = "$HOSTNAME"
omit_hostname = false
[[outputs.influxdb_v2]]
urls = ["http://monitoring-backend-influxdb-db01-001:8086"]
token = "token"
organization = "monitoirng"
bucket = "monitoring"
timeout = "5s"
[[inputs.cpu]]
percpu = true
totalcpu = true
fielddrop = ["time_*"]
[[inputs.system]]
[[inputs.disk]]
ignore_fs = ["tmpfs", "devtmpfs", "devfs", "iso9660", "overlay", "aufs", "squashfs"]
mount_points = ["/", "/backup", "/var/lib/longhorn"]
[inputs.disk.tagpass]
fstype = [ "ext4", "xfs" ]
path = [ "/", "/backup", "/var/lib/longhorn" ]
[[inputs.diskio]]
devices = ["sd*"]
[[inputs.kernel]]
[[inputs.mem]]
[[inputs.processes]]
[[inputs.swap]]
[[inputs.system]]
[[inputs.net]]
[[inputs.netstat]]
[[inputs.interrupts]]
[[inputs.linux_sysctl_fs]]
[[inputs.docker]]
endpoint = "unix:///var/run/docker.sock"
[[inputs.kubernetes]]
url = "https://$HOSTIP:10250"
bearer_token = "/run/secrets/kubernetes.io/serviceaccount/token"
insecure_skip_verify = true
EOF
kustomization.yaml の patchesStrategicMerge を修正して storageclass,resources の調整
すべての PVC の storade requests, storageClassName を環境に合わせて修正します。
patchesStrategicMerge:
- |-
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: frontend-grafana-app01
spec:
accessModes:
- ReadWriteMany
resources:
requests:
storage: 調整
storageClassName: 調整
docker.sock の権限変更
docker metrics を収集する場合、 docker.sock の権限を 666 に変更する
sudo chmod 666 /var/run/docker.sock
vagrant@ubuntu2004:~$ ls -l /var/run/docker.sock
srw-rw---- 1 root docker 0 May 9 05:29 /var/run/docker.sock
vagrant@ubuntu2004:~$ sudo chmod 666 /var/run/docker.sock
vagrant@ubuntu2004:~$ ls -l /var/run/docker.sock
srw-rw-rw- 1 root docker 0 May 9 05:29 /var/run/docker.sock
vagrant@ubuntu2004:~$
deploy
namespace を deploy します。namespace 名は monitoring としています。
kubectl apply -f namespace.yaml
各リソースの deploy
kubectl apply -k ./
grafana datasorce setting
Influxdb setting
- Query Language
- Flux
- url
- http://monitoring-backend-influxdb-db01-001:8086
- Access
- Server(default)
- InfluxDB Details
- Organization
- monitoring
- Token
- token
- Default Bucket
- monitoring
Loki setting
- HTTP
- URL
- http://monitoring-frontend-loki-app01-001.monitoring.svc.cluster.local:3100
grafana.com から Dashboard を import
https://grafana.com/orgs/aim4highergg/dashboards
Loki:AccessLogs
Loki:NamespaceLogs
Loki:SystemLogs
Telegraf:KubernetesResources
Telegraf:SystemResources