歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux編程 >> SHELL編程

使用 Python 創建你自己的 Shell (上)

我很想知道一個 shell (像 bash,csh 等)內部是如何工作的。於是為了滿足自己的好奇心,我使用 Python 實現了一個名為 yosh (Your Own Shell)的 Shell。本文章所介紹的概念也可以應用於其他編程語言。
(提示:你可以在這裡查找本博文使用的源代碼,代碼以 MIT 許可證發布。在 Mac OS X 10.11.5 上,我使用 Python 2.7.10 和 3.4.3 進行了測試。它應該可以運行在其他類 Unix 環境,比如 Linux 和 Windows 上的 Cygwin。)
讓我們開始吧。

步驟 0:項目結構

對於此項目,我使用了以下的項目結構。
yosh_project
|-- yosh
   |-- __init__.py
   |-- shell.py

yosh_project
為項目根目錄(你也可以把它簡單命名為
yosh
)。
yosh
為包目錄,且
__init__.py
可以使它成為與包的目錄名字相同的包(如果你不用 Python 編寫的話,可以忽略它。)
shell.py
是我們主要的腳本文件。

步驟 1:Shell 循環

當啟動一個 shell,它會顯示一個命令提示符並等待你的命令輸入。在接收了輸入的命令並執行它之後(稍後文章會進行詳細解釋),你的 shell 會重新回到這裡,並循環等待下一條指令。
shell.py
中,我們會以一個簡單的 main 函數開始,該函數調用了 shell_loop() 函數,如下:
def shell_loop():
    # Start the loop here

def main():
    shell_loop()

if __name__ == "__main__":
    main()

接著,在
shell_loop()
中,為了指示循環是否繼續或停止,我們使用了一個狀態標志。在循環的開始,我們的 shell 將顯示一個命令提示符,並等待讀取命令輸入。
import sys

SHELL_STATUS_RUN = 1
SHELL_STATUS_STOP = 0

def shell_loop():
    status = SHELL_STATUS_RUN

    while status == SHELL_STATUS_RUN:
        ### 顯示命令提示符
        sys.stdout.write('> ')
        sys.stdout.flush()

        ### 讀取命令輸入
        cmd = sys.stdin.readline()

之後,我們切分命令(tokenize)輸入並進行執行(execute)(我們即將實現
tokenize
execute
函數)。
因此,我們的 shell_loop() 會是如下這樣:
import sys

SHELL_STATUS_RUN = 1
SHELL_STATUS_STOP = 0

def shell_loop():
    status = SHELL_STATUS_RUN

    while status == SHELL_STATUS_RUN:
        ### 顯示命令提示符
        sys.stdout.write('> ')
        sys.stdout.flush()

        ### 讀取命令輸入
        cmd = sys.stdin.readline()
### 切分命令輸入
cmd_tokens = tokenize(cmd)
### 執行該命令並獲取新的狀態
status = execute(cmd_tokens)

這就是我們整個 shell 循環。如果我們使用
python shell.py
啟動我們的 shell,它會顯示命令提示符。然而如果我們輸入命令並按回車,它會拋出錯誤,因為我們還沒定義
tokenize
函數。
為了退出 shell,可以嘗試輸入 ctrl-c。稍後我將解釋如何以優雅的形式退出 shell。

步驟 2:命令切分(tokenize)

當用戶在我們的 shell 中輸入命令並按下回車鍵,該命令將會是一個包含命令名稱及其參數的長字符串。因此,我們必須切分該字符串(分割一個字符串為多個元組)。
咋一看似乎很簡單。我們或許可以使用
cmd.split()
,以空格分割輸入。它對類似
ls -a my_folder
的命令起作用,因為它能夠將命令分割為一個列表
['ls', '-a', 'my_folder']
,這樣我們便能輕易處理它們了。
然而,也有一些類似
echo "Hello World"
echo 'Hello World'
以單引號或雙引號引用參數的情況。如果我們使用 cmd.spilt,我們將會得到一個存有 3 個標記的列表
['echo', '"Hello', 'World"']
而不是 2 個標記的列表
['echo', 'Hello World']

幸運的是,Python 提供了一個名為
shlex
的庫,它能夠幫助我們如魔法般地分割命令。(提示:我們也可以使用正則表達式,但它不是本文的重點。)
import sys
import shlex

...

def tokenize(string):
    return shlex.split(string)

...

然後我們將這些元組發送到執行進程。

步驟 3:執行

這是 shell 中核心而有趣的一部分。當 shell 執行
mkdir test_dir
時,到底發生了什麼?(提示:
mkdir
是一個帶有
test_dir
參數的執行程序,用於創建一個名為
test_dir
的目錄。)
execvp
是這一步的首先需要的函數。在我們解釋
execvp
所做的事之前,讓我們看看它的實際效果。
import os
...

def execute(cmd_tokens):
    ### 執行命令
    os.execvp(cmd_tokens[0], cmd_tokens)

    ### 返回狀態以告知在 shell_loop 中等待下一個命令
    return SHELL_STATUS_RUN

...

再次嘗試運行我們的 shell,並輸入
mkdir test_dir
命令,接著按下回車鍵。
在我們敲下回車鍵之後,問題是我們的 shell 會直接退出而不是等待下一個命令。然而,目錄正確地創建了。
因此,
execvp
實際上做了什麼?
execvp
是系統調用
exec
的一個變體。第一個參數是程序名字。
v
表示第二個參數是一個程序參數列表(參數數量可變)。
p
表示將會使用環境變量
PATH
搜索給定的程序名字。在我們上一次的嘗試中,它將會基於我們的
PATH
環境變量查找
mkdir
程序。
(還有其他
exec
變體,比如 execv、execvpe、execl、execlp、execlpe;你可以 google 它們獲取更多的信息。)
exec
會用即將運行的新進程替換調用進程的當前內存。在我們的例子中,我們的 shell 進程內存會被替換為
mkdir
程序。接著,
mkdir
成為主進程並創建
test_dir
目錄。最後該進程退出。
這裡的重點在於我們的 shell 進程已經被
mkdir
進程所替換
。這就是我們的 shell 消失且不會等待下一條命令的原因。
因此,我們需要其他的系統調用來解決問題:
fork

fork
會分配新的內存並拷貝當前進程到一個新的進程。我們稱這個新的進程為子進程,調用者進程為父進程。然後,子進程內存會被替換為被執行的程序。因此,我們的 shell,也就是父進程,可以免受內存替換的危險。
讓我們看看修改的代碼。
...

def execute(cmd_tokens):
    ### 分叉一個子 shell 進程
    ### 如果當前進程是子進程,其 `pid` 被設置為 `0`
    ### 否則當前進程是父進程的話,`pid` 的值
    ### 是其子進程的進程 ID。
    pid = os.fork()

    if pid == 0:
    ### 子進程
        ### 用被 exec 調用的程序替換該子進程
        os.execvp(cmd_tokens[0], cmd_tokens)
    elif pid > 0:
    ### 父進程
        while True:
            ### 等待其子進程的響應狀態(以進程 ID 來查找)
            wpid, status = os.waitpid(pid, 0)

            ### 當其子進程正常退出時
            ### 或者其被信號中斷時,結束等待狀態
            if os.WIFEXITED(status) or os.WIFSIGNALED(status):
                break

    ### 返回狀態以告知在 shell_loop 中等待下一個命令
    return SHELL_STATUS_RUN

...

當我們的父進程調用
os.fork()
時,你可以想象所有的源代碼被拷貝到了新的子進程。此時此刻,父進程和子進程看到的是相同的代碼,且並行運行著。
如果運行的代碼屬於子進程,
pid
將為
0
。否則,如果運行的代碼屬於父進程,
pid
將會是子進程的進程 id。
os.execvp
在子進程中被調用時,你可以想象子進程的所有源代碼被替換為正被調用程序的代碼。然而父進程的代碼不會被改變。
當父進程完成等待子進程退出或終止時,它會返回一個狀態,指示繼續 shell 循環。

運行

現在,你可以嘗試運行我們的 shell 並輸入
mkdir test_dir2
。它應該可以正確執行。我們的主 shell 進程仍然存在並等待下一條命令。嘗試執行
ls
,你可以看到已創建的目錄。
但是,這裡仍有一些問題。
第一,嘗試執行
cd test_dir2
,接著執行
ls
。它應該會進入到一個空的
test_dir2
目錄。然而,你將會看到目錄並沒有變為
test_dir2

第二,我們仍然沒有辦法優雅地退出我們的 shell。
我們將會在下篇解決諸如此類的問題。
作者:Supasate Choochaisri 譯者:cposture 校對:wxy
Copyright © Linux教程網 All Rights Reserved