Varidata 新聞資訊

知識庫 | 問答 | 最新技術 | IDC 行業新聞

如何使Nginx當機時自動重啟?

發布日期：2024-05-31

在美國伺服器租用環境中保持Nginx伺服器的高可用性至關重要。當Nginx伺服器意外當機時,每一秒的停機時間都可能影響使用者體驗和業務營運。本指南探討了在Nginx停止時自動重啟的經過實戰檢驗的方法,確保您的Web應用程式獲得最佳的運行時間。

瞭解Nginx當機的原因

在深入解決方案之前,讓我們先看看生產環境中Nginx故障的常見原因：

流量激增導致記憶體耗盡
更新後的設定語法錯誤
系統資源限制
核心級問題
程序意外終止

自動重啟的前提條件

確保您的系統滿足以下要求：

伺服器的root或sudo存取權限
已安裝並設定Nginx
基本的命令列知識
文字編輯器(vim、nano或類似工具)

方法一：建立Bash監控腳本

讓我們建立一個監控Nginx狀態並觸發自動重啟的強大shell腳本：

#!/bin/bash

# nginx_monitor.sh
CHECK_INTERVAL=60  # 每60秒檢查一次

while true
do
    if ! pgrep nginx >/dev/null
    then
        echo "$(date): Nginx已停止。嘗試重啟..." >> /var/log/nginx/autostart.log
        systemctl start nginx
        
        if [ $? -eq 0 ]; then
            echo "$(date): Nginx重啟成功" >> /var/log/nginx/autostart.log
        else
            echo "$(date): Nginx重啟失敗" >> /var/log/nginx/autostart.log
        fi
    fi
    sleep $CHECK_INTERVAL
done

要實施此解決方案：

將腳本儲存為 /usr/local/bin/nginx_monitor.sh
使其可執行：chmod +x /usr/local/bin/nginx_monitor.sh
建立systemd服務以自動運行腳本

為監控腳本設定Systemd服務

建立systemd服務檔案以確保我們的監控腳本在啟動時自動運行,並在失敗時重啟：

# /etc/systemd/system/nginx-monitor.service

[Unit]
Description=Nginx監控服務
After=network.target nginx.service

[Service]
Type=simple
ExecStart=/usr/local/bin/nginx_monitor.sh
Restart=always
RestartSec=10

[Install]
WantedBy=multi-user.target

使用以下指令啟用並啟動服務：

systemctl daemon-reload
systemctl enable nginx-monitor
systemctl start nginx-monitor

方法二：利用Systemd的內建復原功能

現代美國伺服器租用環境通常使用systemd。我們可以設定它來自動處理Nginx當機。修改您的Nginx systemd服務檔案：

# /etc/systemd/system/nginx.service.d/override.conf

[Service]
Restart=always
RestartSec=5s
StartLimitInterval=500s
StartLimitBurst=5

這些參數告訴systemd：

在當機時始終重啟Nginx
重啟嘗試之間等待5秒
在500秒內允許5次重啟嘗試
成功運行後重置計數器

方法三：實施Monit進行高階監控

對於企業級監控,Monit提供了對Nginx程序的精細控制。在伺服器上安裝Monit：

apt-get update && apt-get install monit -y

設定Monit來監控Nginx：

# /etc/monit/conf.d/nginx

check process nginx with pidfile /var/run/nginx.pid
    start program = "/usr/sbin/service nginx start"
    stop program = "/usr/sbin/service nginx stop"
    if failed host 127.0.0.1 port 80 protocol http
        then restart
    if 5 restarts within 5 cycles then timeout
    if memory usage > 90% for 5 cycles then restart

Nginx運行時間管理最佳實踐

除了自動重啟外,在美國伺服器租用環境中實施這些做法將顯著提高您的Nginx可靠性：

1. 實施適當的日誌記錄

設定詳細的日誌記錄以追蹤重啟事件並識別模式：

# /etc/nginx/nginx.conf

error_log /var/log/nginx/error.log warn;
error_log /var/log/nginx/debug.log debug;

http {
    log_format detailed '$remote_addr - $remote_user [$time_local] '
                        '"$request" $status $body_bytes_sent '
                        '"$http_referer" "$http_user_agent" '
                        '$request_time';
    
    access_log /var/log/nginx/access.log detailed buffer=32k flush=5s;
}

2. 資源監控設定

建立一個全面的監控腳本來檢查多個健康指標：

#!/bin/bash

# health_check.sh
NGINX_THRESHOLD=80
EMAIL="admin@yourdomain.com"

check_nginx_workers() {
    worker_count=$(ps aux | grep "nginx: worker" | grep -v grep | wc -l)
    if [ $worker_count -lt 1 ]; then
        echo "嚴重：未發現Nginx工作程序" | mail -s "Nginx警報" $EMAIL
        systemctl restart nginx
    fi
}

check_memory_usage() {
    memory_usage=$(free | grep Mem | awk '{print $3/$2 * 100.0}')
    if [ $(echo "$memory_usage > $NGINX_THRESHOLD" | bc) -eq 1 ]; then
        echo "警告：記憶體使用率高 - $memory_usage%" | mail -s "記憶體警報" $EMAIL
    fi
}

check_nginx_workers
check_memory_usage

3. 負載平衡設定

對於高流量場景，實施負載平衡以分配請求並防止伺服器過載：

http {
    upstream backend {
        server backend1.example.com:8080 max_fails=3 fail_timeout=30s;
        server backend2.example.com:8080 max_fails=3 fail_timeout=30s;
        keepalive 32;
    }
    
    server {
        location / {
            proxy_pass http://backend;
            proxy_http_version 1.1;
            proxy_set_header Connection "";
            health_check interval=5s fails=3 passes=2;
        }
    }
}

常見問題故障排除

在實施自動重啟解決方案時，您可能遇到這些挑戰：

由於設定錯誤導致的無限重啟循環
快速重啟嘗試導致的資源耗盡
監控服務衝突
日誌輪轉問題

通過以下方式解決這些問題：

# 添加到 /etc/nginx/nginx.conf
worker_rlimit_nofile 30000;
events {
    worker_connections 10000;
    multi_accept on;
    use epoll;
}

# 系統限制在 /etc/security/limits.conf
nginx soft nofile 30000
nginx hard nofile 30000

企業環境的高階設定

對於處理關鍵業務應用程式的美國伺服器租用供應商，請實施這些高階設定：

1. 零停機重載腳本

#!/bin/bash
# graceful_reload.sh

# 重載前驗證設定
nginx -t
if [ $? -ne 0 ]; then
    echo "設定測試失敗。中止重載。"
    exit 1
fi

# 執行優雅重載
kill -HUP $(cat /var/run/nginx.pid)

# 驗證服務狀態
sleep 2
systemctl status nginx | grep "active (running)"

2. 增強型監控整合

使用自訂健康檢查端點整合外部監控服務：

location /health {
    access_log off;
    add_header Content-Type text/plain;
    return 200 'OK';
}

3. 自動備份設定

#!/bin/bash
# backup_nginx_config.sh

BACKUP_DIR="/etc/nginx/backups"
DATE=$(date +%Y%m%d_%H%M%S)

# 建立備份目錄
mkdir -p $BACKUP_DIR

# 備份設定檔案
tar -czf $BACKUP_DIR/nginx_config_$DATE.tar.gz /etc/nginx/

# 只保留最近7天的備份
find $BACKUP_DIR -type f -mtime +7 -delete