歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux綜合 >> 學習Linux

(轉)tomcat進程意外退出的問題分析,tomcat進程退出

(轉)tomcat進程意外退出的問題分析,tomcat進程退出

(轉)tomcat進程意外退出的問題分析,tomcat進程退出


節前某個部門的測試環境反饋tomcat會意外退出,我們到實際環境排查後發現不是jvm crash,日志裡有進程銷毀的記錄,從pause到destory的整個過程:

org.apache.coyote.AbstractProtocol pause
Pausing ProtocolHandler
org.apache.catalina.core.StandardService stopInternal
Stopping service Catalina
org.apache.coyote.AbstractProtocol stop
Stopping ProtocolHandler
org.apache.coyote.AbstractProtocol destroy
Destroying ProtocolHandler

從上面日志來可以判斷:

1) tomcat不是通過腳本正常關閉(viaport: 即通過8005端口發送shutdown指令)

因為正常關閉(viaport)的話會在 pause 之前有這樣的一句warn日志:

    org.apache.catalina.core.StandardServer await
    A valid shutdown command was received via the shutdown port. Stopping the Server instance.
    然後才是 pause -> stop -> destroy 
2) tomcat的shutdownhook被觸發,執行了銷毀邏輯

而這又有兩種情況,一是應用代碼裡有地方用System.exit來退出jvm,二是系統發的信號(kill -9除外,SIGKILL信號JVM不會有機會執行shutdownhook)

先通過排查代碼,應用方和中間件團隊都排查了System.exit在這個應用中使用的可能。那就只剩下Signal的情況了;經過一番排查後,發現每次tomcat意外退出的時間與ssh會話結束的時間正好吻合。

有了這個線索之後,銀時同學立刻看了一下對方測試環境的腳本,簡化後如下:

$ cat test.sh
#!/bin/bash
cd /data/server/tomcat/bin/
./catalina.sh start
tail -f /data/server/tomcat/logs/catalina.out

tomcat啟動為後,當前shell進程並沒有退出,而是掛住在tail進程,往終端輸出日志內容。這種情況下,如果用戶直接關閉ssh終端的窗口(用鼠標或快捷鍵),則java進程也會退出。而如果先ctrl-c終止test.sh進程,然後再關閉ssh終端的話,則java進程不會退出。

這是一個有趣的現象,catalina.sh start方式啟動的tomcat會把java進程掛到init(進程id為1)的父進程下,已經與當前test.sh進程脫離了父子關系,也與ssh進程沒有關系,為什麼關閉ssh終端窗口會導致java進程退出?

我們的推測是ssh窗口在關閉時,對當前交互的shell以及正在運行的test.sh等子進程發送某個退出的Signal,找了一台裝有systemtap的機器來驗證,所用的stap腳本是從澗泉同學那裡copy的:

function time_str: string () {
    return ctime(gettimeofday_s() + 8 * 60 * 60);
}

probe begin {
    printdln(" ", time_str(), "BEGIN");
}

probe end {
    printdln(" ", time_str(), "END");
}

probe signal.send {
    if (sig_name == "SIGHUP" || sig_name == "SIGQUIT" || 
        sig_name=="SIGINT" || sig_name=="SIGKILL" || sig_name=="SIGABRT") {
        printd(" ", time_str(), sig_name, "[", uid(), pid(), cmdline_str(), 
                "] -> [", task_uid(task), sig_pid, pid_name, "], ");
        task = pid2task(pid());
        while (task_pid(task) > 0) {
            printd(" ", "[", task_uid(task), task_pid(task), task_execname(task), "]");
            task = task_parent(task);
        }
        println("");
    }
}

模擬時的進程層級(pstree)大致如下,tomcat啟動後java進程已經脫離test.sh,掛在init下:

|-sshd(1622)-+-sshd(11681)---sshd(11699)---bash(11700)---test.sh(13285)---tail(13299)

經過內核組伯俞的協助,我們發現

a) 用 ctrl-c 終止當前test.sh進程時,系統events進程向 java 和 tail 兩個進程發送了SIGINT 信號
SIGINT [ 0 11  ] -> [ 0 20629 tail ] 
SIGINT [ 0 11  ] -> [ 0 20628 java ] 
SIGINT [ 0 11  ] -> [ 0 20615 test.sh ] 

注pid 11是events進程
b) 關閉ssh終端窗口時,sshd向下游進程發送SIGHUP, 為何java進程也會收到?
SIGHUP [ 0 11681 sshd: hongjiang.wanghj [priv] ] -> [ 57316 11700 bash ] 
SIGHUP [ 57316 11700 -bash ] -> [ 57316 11700 bash ]
SIGHUP [ 57316 11700 ] -> [ 0 13299 tail ] 
SIGHUP [ 57316 11700 ] -> [ 0 13298 java ] 
SIGHUP [ 57316 11700 ] -> [ 0 13285 test.sh ] 

不過伯俞很忙沒有繼續協助分析這個問題(他給出了一些猜測,但後來證明並不是那樣)。

確定了是由signal引起的之後,我的疑惑變成了:

1) 為什麼SIGINT (kill -2) 不會讓tomcat進程退出?
2) 為什麼SIGHUP (kill -1) 會讓tomcat進程退出?

我第一反應可能是jvm在某些參數下(或因為某些jni)對os的信號處理會不同,看了一下應用的jvm參數,沒有看出問題,也排除了tomcat使用apr/tcnative的情況。

我們看一下默認情況下,jvm進程對SIGINTSIGHUP是怎麼處理的,用scala的repl模擬一下:

scala> Runtime.getRuntime().addShutdownHook(
            new Thread() { override def run() { println("ok") } })

對這個java進程分別用kill -2kill -1發現都會導致jvm進程退出,並且也觸發shutdownhook。這也符合oracle對hotspot虛擬機處理Signal的說明,參考這裡,SIGTERM,SIGINT,SIGHUP三種信號都會觸發shutdownhook

看來並不是jvm的事,繼續猜測是否與進程的狀態有關?catalina.sh腳本裡並沒有使用start-stop-daemon之類的方式啟動java進程,start參數的執行方式簡化後腳本相當於:

eval '"/pathofjdk/bin/java"' 'params' org.apache.catalina.startup.Bootstrap start '&'

就是簡單的把java放到後台執行。當catalina.sh自身進程退出後,java進程的ppid變成了1

花了很多的時間猜測可能是OS層面的原因,後來發現並沒有關系。春節後回來讓少明和澗泉也一起分析這個問題,因為他們有c的背景,對系統底層知道的多一些,用了大半天時間,不斷猜測和驗證,最後確認了是Shell的原因。

SIGINT (kill -2) 不會讓後台java進程退出的原因

為了簡便,我們用sleep來模擬進程,當我們在交互模式下:

$ sleep 1000 & 

$ ps -opid,pgid,ppid,stat,cmd -C sleep
  PID  PGID  PPID STAT CMD
 9897  9897  9813 S    sleep 1000   

注意,進程sleep 1000的pid與pgid(進程組)是相同的,這時我們用kill -2是可以殺掉sleep 1000進程的。

現在我們把sleep進程放到一個腳本裡後台執行:

$ cat a.sh
#!/bin/sh
sleep 4400 &
echo "shell exit"

運行a.sh腳本之後,sleep 4400進程的pid與pgid是不同的,pgid是其父進程的id,即已經退出了的a.sh進程

$ ps -opid,pgid,ppid,comm -p 63376
  PID  PGID  PPID COMM
63376 63375     1 sleep

這時我們用kill -2是殺不掉sleep 4400進程的。

到了這一步,已經非常接近原因了,一定是shell對後台進程signal_handler做了什麼手腳。少明實現了一個自定handler的命令看看是否對kill -2有效:

#include <stdio.h>
#include <signal.h>
#include <stdlib.h>

void my_handler(int sig) {
    printf("handler aaa\n");
    exit(0);
}

int main() {
    signal(SIGINT, my_handler);
    for(;;) { }
    return 0;
}

我們把編譯後的a.out命令在腳本裡以後台方式運行:

$ cat a.sh
#!/bin/sh
/tmp/a.out &

這次再嘗試用kill -2去殺a.out進程,是可以的。這說明shell對signal_handler做手腳是在執行用戶邏輯之前,也就是腳本在fork出子進程的時候就設置了。按照這個線索我們google後了解到: shell在非交互模式下對後台進程處理SIGINT信號時設置的是IGNORE

交互模式與非交互模式對作業控制(job control)默認方式不同

為什麼在交互模式下shell不會對後台進程處理SIGINT信號設置為忽略,而非交互模式下會設置為忽略呢?還是比較好理解的,舉例來說,我們先某個前台進程運行時間太長,可以ctrl-z中止一下,然後通過bg %n把這個進程放入後台,同樣也可以把一個cmd &方式啟動的後台進程,通過fg %n放回前台,然後在ctrl-c停止它,當然不能忽略SIGINT

為何交互模式下的後台進程會設置一個自己的進程組ID呢?因為默認如果采用父進程的進程組ID,父進程會把收到的鍵盤事件比如ctrl-c之類的SIGINT傳播給進程組中的每個成員,假設後台進程也是父進程組的成員,因為作業控制的需要不能忽略SIGINT,你在終端隨意ctrl-c就可能導致所有的後台進程退出,顯然這樣是不合理的;所以為了避免這種干擾後台進程設置為自己的pgid。

而非交互模式下,通常是不需要作業控制的,所以作業控制在非交互模式下默認也是關閉的(當然也可以在腳本裡通過選項set -m打開作業控制選項)。不開啟作業控制的話,腳本裡的後台進程可以通過設置忽略SIGINT信號來避免父進程對組中成員的傳播,因為對它來說這個信號已經沒有意義。

回到tomcat的例子,catalina.sh腳本通過start參數啟動的時候,就是以非交互方式後台啟動,java進程也被shell設置了忽略SIGINT信號,因此在ctrl-c結束test.sh進程時,系統發送的SIGINT對java沒有影響。

SIGHUP (kill -1) 讓tomcat進程退出的原因

在非交互模式下,shell對java進程設置了SIGINTSIGQUIT信號設置了忽略,但並沒有對SIGHUP信號設為忽略。再看一下當時的進程層級:

|-sshd(1622)-+-sshd(11681)---sshd(11699)---bash(11700)---test.sh(13285)---tail(13299)

sshd把SIGHUP傳遞給bash進程後,bash會把SIGHUP傳遞給它的子進程,並且對於其子進程test.sh,bash還會對test.sh的進程組裡的成員都傳播一遍SIGHUP。因為java後台進程從父進程catalina.sh(又是從其父進程test.sh)繼承的pgid,所以java進程仍屬於test.sh進程組裡的成員,收到SIGHUP後退出。

如果我們在test.sh裡設置開啟作業控制的話,就不會讓java進程退出了

#!/bin/bash
set -m  
cd /home/admin/tt/tomcat/bin/
./catalina.sh start
tail -f /home/admin/tt/tomcat/logs/catalina.out

此時java後台進程繼承父進程catalina.sh的pgid,而catalina.sh不再使用test.sh的進程組,而是自己的pid作為pgid,catalina.sh進程在執行完退出後,java進程掛到了init下,java與test.sh進程就完全脫離關系了,bash也不會再向它發送信號。

原文地址:http://hongjiang.info/why-kill-2-cannot-stop-tomcat/

http://xxxxxx/Linuxjc/1175367.html TechArticle

Copyright © Linux教程網 All Rights Reserved