系統調用:
先說一下系統調用,奇怪的很,所有的讀核資料都沒有把系統調用單獨提出來說,我覺得還是比較重要的。用戶和系統內核通信的關鍵的樞紐,不過分吧,呵呵。仔細研究一下它的機制,准備花三天時間,手頭有些書和資料,幫助我理解。
概念:(明晰一下基本概念)系統調用發生在用戶進程,通過一些特殊的函數(如open)來請求內核提供服務,這時,用戶進程掛起,內核驗證用戶請求,嘗試之行,並把結果反饋給用戶進程,接著用戶進程重新啟動。這些機制在一般的編程書裡都有,我就是來通過源代碼的實現來討論這種機制。
具體實現代碼:arch/i386/kernel/entry.S(內核版本2.2.14)從entry.S的第171行,就是system_call開始,171-248行代碼貼出來,分析以注釋形式:ENTRY(system_call) \\所有系統調用的入口點,參數system_call是所希望激活的系統調用的數pushl %eax# 保存orig_eax,這個值就是希望系統調用數SAVE_ALL。SAVE_ALL宏定義如下:
#define SAVE_ALL cld; pushl %es; pushl %ds; pushl %eax; pushl %ebp; pushl %edi; pushl %esi; pushl %edx; pushl %ecx; pushl %ebx; movl $(__KERNEL_DS),%edx; movl %dx,%ds; movl %dx,%es;
他的作用是先把所有寄存器的值壓棧,然後在system_call返回之前使用RESTORE_ALL把棧從棧中彈出,在這其中system_call可以根據需要子去使用寄存器的值。任何它調用的c函數都可以從棧中查找到所希望的參數,因為SAVE_ALL已經把所有寄存器的值都壓入棧中了 */GET_CURRENT(%ebx) /*利用GET_CURRENT宏從ebx中取得當前任務指針,GET_CURRENT宏定義如下:#define GET_CURRENT(reg) movl %esp, reg; andl $-8192, reg;這段代碼應該很好理解,把esp指移到reg變量,減去8129得到當前任務地址。cmpl $(NR_syscalls),%eax /*察看保存在eax中的系統調用數是否超過最大數(常數NR_syscalls代表系統調用的最大數)如果確實超過了,請看下面一句:jae badsys,程序則跳轉到badsys。*/jae badsys testb $0x20,flags(%ebx)# PF_TRACESYS/*檢查系統調用是否正在被跟蹤*/jne tracesys /*如果系統調用被跟蹤,則程序跳轉到tracesys。*/call *SYMBOL_NAME(sys_call_table)(,%eax,4)/*調用系統函數*/。/*SYMBOL_NAME宏不處理任何工作,只是簡單的被文本參數(也就是系統調用名)所替換,所以可以忽略sys_call_table也定義在entry.S(373行)中,是一張由指向實現各種系統調用的內核函數的函數指針組成的表:
ENTRY(sys_call_table) .long SYMBOL_NAME(sys_ni_syscall)/* 0 - old "setup()" system call*/ .long SYMBOL_NAME(sys_exit) .long SYMBOL_NAME(sys_fork) .long SYMBOL_NAME(sys_read) .long SYMBOL_NAME(sys_write) .long SYMBOL_NAME(sys_open)/* 5 */ .long SYMBOL_NAME(sys_close) .long SYMBOL_NAME(sys_waitpid) .long SYMBOL_NAME(sys_creat) .long SYMBOL_NAME(sys_link) .long SYMBOL_NAME(sys_unlink)/* 10 */ .long SYMBOL_NAME(sys_execve) .long SYMBOL_NAME(sys_chdir) .long SYMBOL_NAME(sys_time) .long SYMBOL_NAME(sys_mknod) .long SYMBOL_NAME(sys_chmod)/* 15 */ .long SYMBOL_NAME(sys_lchown) .long SYMBOL_NAME(sys_ni_syscall)/* old break syscall holder */ .long SYMBOL_NAME(sys_stat) .long SYMBOL_NAME(sys_lseek) .long SYMBOL_NAME(sys_getpid)/* 20 */ .long SYMBOL_NAME(sys_mount) .long SYMBOL_NAME(sys_oldumount) .long SYMBOL_NAME(sys_setuid) .long SYMBOL_NAME(sys_getuid) .long SYMBOL_NAME(sys_stime)/* 25 */ .long SYMBOL_NAME(sys_ptrace) .long SYMBOL_NAME(sys_alarm) .long SYMBOL_NAME(sys_fstat) .long SYMBOL_NAME(sys_pause) .long SYMBOL_NAME(sys_utime)/* 30 */ .long SYMBOL_NAME(sys_ni_syscall)/* old stty syscall holder */ .long SYMBOL_NAME(sys_ni_syscall)/* old gtty syscall holder */ .long SYMBOL_NAME(sys_access) .long SYMBOL_NAME(sys_nice) .long SYMBOL_NAME(sys_ni_syscall)/* 35 */ /* old ftime syscall holder */ .long SYMBOL_NAME(sys_sync) .long SYMBOL_NAME(sys_kill) .long SYMBOL_NAME(sys_rename) .long SYMBOL_NAME(sys_mkdir) .long SYMBOL_NAME(sys_rmdir)/* 40 */ .long SYMBOL_NAME(sys_dup) .long SYMBOL_NAME(sys_pipe) .long SYMBOL_NAME(sys_times) .long SYMBOL_NAME(sys_ni_syscall)/* old prof syscall holder */ .long SYMBOL_NAME(sys_brk)/* 45 */ .long SYMBOL_NAME(sys_setgid) .long SYMBOL_NAME(sys_getgid) .long SYMBOL_NAME(sys_signal) .long SYMBOL_NAME(sys_geteuid) .long SYMBOL_NAME(sys_getegid)/* 50 */ .long SYMBOL_NAME(sys_acct) .long SYMBOL_NAME(sys_umount)/* recycled never used phys() */ .long SYMBOL_NAME(sys_ni_syscall)/* old lock syscall holder */ .long SYMBOL_NAME(sys_ioctl) .long SYMBOL_NAME(sys_fcntl)/* 55 */ .long SYMBOL_NAME(sys_ni_syscall)/* old mpx syscall holder */ .long SYMBOL_NAME(sys_setpgid) .long SYMBOL_NAME(sys_ni_syscall)/* old ulimit syscall holder */ .long SYMBOL_NAME(sys_olduname) .long SYMBOL_NAME(sys_umask)/* 60 */ .long SYMBOL_NAME(sys_chroot) .long SYMBOL_NAME(sys_ustat) .long SYMBOL_NAME(sys_dup2) .long SYMBOL_NAME(sys_getppid) .long SYMBOL_NAME(sys_getpgrp)/* 65 */ .long SYMBOL_NAME(sys_setsid) .long SYMBOL_NAME(sys_sigaction) .long SYMBOL_NAME(sys_sgetmask) .long SYMBOL_NAME(sys_ssetmask) .long SYMBOL_NAME(sys_setreuid)/* 70 */ .long SYMBOL_NAME(sys_setregid) .long SYMBOL_NAME(sys_sigsuspend) .long SYMBOL_NAME(sys_sigpending) .long SYMBOL_NAME(sys_sethostname) .long SYMBOL_NAME(sys_setrlimit)/* 75 */ .long SYMBOL_NAME(sys_getrlimit) .long SYMBOL_NAME(sys_getrusage) .long SYMBOL_NAME(sys_gettimeofday) .long SYMBOL_NAME(sys_settimeofday) .long SYMBOL_NAME(sys_getgroups)/* 80 */ .long SYMBOL_NAME(sys_setgroups) .long SYMBOL_NAME(old_select) .long SYMBOL_NAME(sys_symlink) .long SYMBOL_NAME(sys_lstat) .long SYMBOL_NAME(sys_readlink)/* 85 */ .long SYMBOL_NAME(sys_uselib) .long SYMBOL_NAME(sys_swapon) .long SYMBOL_NAME(sys_reboot) .long SYMBOL_NAME(old_readdir) .long SYMBOL_NAME(old_mmap)/* 90 */ .long SYMBOL_NAME(sys_munmap) .long SYMBOL_NAME(sys_truncate) .long SYMBOL_NAME(sys_ftruncate) .long SYMBOL_NAME(sys_fchmod) .long SYMBOL_NAME(sys_fchown)/* 95 */ .long SYMBOL_NAME(sys_getpriority) .long SYMBOL_NAME(sys_setpriority) .long SYMBOL_NAME(sys_ni_syscall)/* old profil syscall holder */ .long SYMBOL_NAME(sys_statfs) .long SYMBOL_NAME(sys_fstatfs)/* 100 */ .long SYMBOL_NAME(sys_ioperm) .long SYMBOL_NAME(sys_socketcall) .long SYMBOL_NAME(sys_syslog) .long SYMBOL_NAME(sys_setitimer) .long SYMBOL_NAME(sys_getitimer)/* 105 */ .long SYMBOL_NAME(sys_newstat) .long SYMBOL_NAME(sys_newlstat) .long SYMBOL_NAME(sys_newfstat) .long SYMBOL_NAME(sys_uname) .long SYMBOL_NAME(sys_iopl)/* 110 */ .long SYMBOL_NAME(sys_vhangup) .long SYMBOL_NAME(sys_idle) .long SYMBOL_NAME(sys_vm86old) .long SYMBOL_NAME(sys_wait4) .long SYMBOL_NAME(sys_swapoff)/* 115 */ .long SYMBOL_NAME(sys_sysinfo) .long SYMBOL_NAME(sys_ipc) .long SYMBOL_NAME(sys_fsync) .long SYMBOL_NAME(sys_sigreturn) .long SYMBOL_NAME(sys_clone)/* 120 */ .long SYMBOL_NAME(sys_setdomainname) .long SYMBOL_NAME(sys_newuname) .long SYMBOL_NAME(sys_modify_ldt) .long SYMBOL_NAME(sys_adjtimex) .long SYMBOL_NAME(sys_mprotect)/* 125 */ .long SYMBOL_NAME(sys_sigprocmask) .long SYMBOL_NAME(sys_create_module) .long SYMBOL_NAME(sys_init_module) .long SYMBOL_NAME(sys_delete_module) .long SYMBOL_NAME(sys_get_kernel_syms)/* 130 */ .long SYMBOL_NAME(sys_quotactl) .long SYMBOL_NAME(sys_getpgid) .long SYMBOL_NAME(sys_fchdir) .long SYMBOL_NAME(sys_bdflush) .long SYMBOL_NAME(sys_sysfs)/* 135 */ .long SYMBOL_NAME(sys_personality) .long SYMBOL_NAME(sys_ni_syscall)/* for afs_syscall */ .long SYMBOL_NAME(sys_setfsuid) .long SYMBOL_NAME(sys_setfsgid) .long SYMBOL_NAME(sys_llseek)/* 140 */ .long SYMBOL_NAME(sys_getdents) .long SYMBOL_NAME(sys_select) .long SYMBOL_NAME(sys_flock) .long SYMBOL_NAME(sys_msync) .long SYMBOL_NAME(sys_readv)/* 145 */ .long SYMBOL_NAME(sys_writev) .long SYMBOL_NAME(sys_getsid) .long SYMBOL_NAME(sys_fdatasync) .long SYMBOL_NAME(sys_sysctl) .long SYMBOL_NAME(sys_mlock)/* 150 */ .long SYMBOL_NAME(sys_munlock) .long SYMBOL_NAME(sys_mlockall) .long SYMBOL_NAME(sys_munlockall) .long SYMBOL_NAME(sys_sched_setparam) .long SYMBOL_NAME(sys_sched_getparam) /* 155 */ .long SYMBOL_NAME(sys_sched_setscheduler) .long SYMBOL_NAME(sys_sched_getscheduler) .long SYMBOL_NAME(sys_sched_yield) .long SYMBOL_NAME(sys_sched_get_priority_max) .long SYMBOL_NAME(sys_sched_get_priority_min) /* 160 */ .long SYMBOL_NAME(sys_sched_rr_get_interval) .long SYMBOL_NAME(sys_nanosleep) .long SYMBOL_NAME(sys_mremap) .long SYMBOL_NAME(sys_setresuid) .long SYMBOL_NAME(sys_getresuid)/* 165 */ .long SYMBOL_NAME(sys_vm86) .long SYMBOL_NAME(sys_query_module) .long SYMBOL_NAME(sys_poll) .long SYMBOL_NAME(sys_nfsservctl) .long SYMBOL_NAME(sys_setresgid)/* 170 */ .long SYMBOL_NAME(sys_getresgid) .long SYMBOL_NAME(sys_prctl) .long SYMBOL_NAME(sys_rt_sigreturn) .long SYMBOL_NAME(sys_rt_sigaction) .long SYMBOL_NAME(sys_rt_sigprocmask)/* 175 */ .long SYMBOL_NAME(sys_rt_sigpending) .long SYMBOL_NAME(sys_rt_sigtimedwait) .long SYMBOL_NAME(sys_rt_sigqueueinfo) .long SYMBOL_NAME(sys_rt_sigsuspend) .long SYMBOL_NAME(sys_pread)/* 180 */ .long SYMBOL_NAME(sys_pwrite) .long SYMBOL_NAME(sys_chown) .long SYMBOL_NAME(sys_getcwd) .long SYMBOL_NAME(sys_capget) .long SYMBOL_NAME(sys_capset) /* 185 */ .long SYMBOL_NAME(sys_sigaltstack) .long SYMBOL_NAME(sys_sendfile) .long SYMBOL_NAME(sys_ni_syscall)/* streams1 */ .long SYMBOL_NAME(sys_ni_syscall)/* streams2 */ .long SYMBOL_NAME(sys_vfork) /* 190 */
我們來繼續看本行的三個參數:(,%eax,4),實現數組索引。當然,這個數組是以sys_call_table作為索引的,稱為偏移。三個參數分別代表:數組的基地址,索引(eax,也就是系統調用數)和大小,或每個數組元素中的字節數-----這裡是4。由於數組基地址為空,所以賦予0---但它需要和偏移地址sys_call_table相加,簡單的說是sys_call_table被當作數組的基地址。我把本行用c重寫如下:
(sys_call_table)[EAX]();
當然,c還要處理許多工作,如為你紀錄數組元素的大小。不要忘記,系統調用的參數早已經存儲在堆棧中了,以便於system_call使用SAVE_ALL把他們壓棧movl %eax,EAX(%esp)# 系統調用返回/*它在EAX寄存器中的返回值(這個值同時也是system_call的返回值)被存儲了起來。返回值被存儲在堆棧中的EAX內,以使得RESTORE_ALL可以迅速地恢復實際的EAX寄存器及其他寄存器的值。*/
以下代碼依然是system_call的一部分,是一個可以命名為ret_from_sys_call和ret_from_intr的獨立入口點。它們偶爾會被c直接調用,也可以從system_call的其他部分跳轉過來。
ALIGN .globl ret_from_sys_call .globl ret_from_intr ret_from_sys_call: movl SYMBOL_NAME(bh_mask),%eax andl SYMBOL_NAME(bh_active),%eax jne handle_bottom_half
檢測bottom half是否激活,如果激活,程序就跳轉到handle_bottom_half執行,bottom half是中斷進程的一部分,以後再提及,中斷進程我的概念也很模糊。
ret_with_reschedule: cmpl $0,need_resched(%ebx)/*檢查進程是否為再次調度做了標記*/ jne reschedule/*如果是,就跳轉到reschedule*/ cmpl $0,sigpending(%ebx)/*檢查是否還有掛起信號*/ jne signal_return/*如果有,則程序跳轉到signal_return*/ restore_all: RESTORE_ALL/*system_call的退出點,參看前面SAVE_ALL的用法*/
ALIGN
signal_return:/*當system_call從系統調用返回前,如果它檢測到需要將信號傳送給當前的進程時,才會執行到signal_return。它通過使中斷再次可用開始執行。*/
sti# we can get here from an interrupt handler testl $(VM_MASK),EFLAGS(%esp)/*檢測是否返回虛擬8086模式*/movl %esp,%eax jne v86_signal_return/*如果是,就跳轉到v86_signal_return(由於虛擬8086我也不太理解,所以就跳過了,:(*/xorl %edx,%edx /*system_call需要調用c函數do_signal來釋放信號。do_signal需要兩個參數,這兩個參數都是通過寄存器來傳遞的;第一個是EAX寄存器,另一個是edx寄存器。system_call已經把第一個參數的值賦給了eax;現在,把edx寄存器和寄存器本身進行xor操作,從而將其清0,這樣do_signal就認為這是一個空指針。*/call SYMBOL_NAME(do_signal) /*好,現在就可以調用do_signal來傳遞信號了*/jmp restore_all /*然後跳轉到restore_all結束。
ALIGN v86_signal_return: call SYMBOL_NAME(save_v86_state) movl %eax,%esp xorl %edx,%edx call SYMBOL_NAME(do_signal) jmp restore_all
tracesys: 前面說過,當有當前進程的系統調用被其祖先跟蹤,如strace或truss程序,程序就跳轉到此。
movl $-ENOSYS,EAX(%esp) /*system_call把存儲在堆棧中的EAX拷貝賦予-ENOSYS。*/ call SYMBOL_NAME(syscall_trace) /*調用syscall_trace*/ movl ORIG_EAX(%esp),%eax /*在172行再從所作的拷貝中恢復EAX的值*/ call *SYMBOL_NAME(sys_call_table)(,%eax,4) /*調用實際的系統調用。*/ movl %eax,EAX(%esp)/*把系統調用的返回值置入堆棧中EAX的位置。*/ call SYMBOL_NAME(syscall_trace) /*再次調用syscall_trace*/ jmp ret_from_sys_call /*被跟蹤的系統調用已經返回,控制流程跳轉到ret_from_sys_call*/ badsys: /*前面說過,當系統調用數超過邊界值時程序就跳轉到這裡。*/ movl $-ENOSYS,EAX(%esp) /*這時system_call必須返回-ENOSYS,82行把ENOSYS賦值為38。調用 者會識別這個錯誤*/ jmp ret_from_sys_call /*跳轉到ret_from_sys_call*/
ret_from_exception:在諸如除0之類的cpu異常中斷情況下將執行到這裡;system_call內部代碼不會執行到這個標號:
movl SYMBOL_NAME(bh_mask),%eax andl SYMBOL_NAME(bh_active),%eax jne handle_bottom_half ALIGN ret_from_intr: GET_CURRENT(%ebx) movl EFLAGS(%esp),%eax# mix EFLAGS and CS movb CS(%esp),%al testl $(VM_MASK | 3),%eax# return to VM86 mode or non-supervisor? jne ret_with_reschedule jmp restore_all ALIGN handle_bottom_half: call SYMBOL_NAME(do_bottom_half) jmp ret_from_intr ALIGN reschedule: call SYMBOL_NAME(schedule) # test jmp ret_from_sys_call
這以上的代碼,我都還不太怎麼明白,等我弄明白了就補齊,但基本的system_call的內部核心代碼都介紹完了。