`
xitong
  • 浏览: 6188339 次
文章分类
社区版块
存档分类
最新评论

Linux进程切换以及内核线程的返回值

 
阅读更多

linux中的进程是个最基本的概念,进程从运行队列到开始运行有两个开始的地方,一个就是switch_to宏中的标号1:"1:/t",另 一个就是ret_form_fork,只要不是新创建的进程,几乎都是从上面的那个标号1开始的,而switch_to宏则是除了内核本身,所有的进程要 想运行都要经过的地方,这样看来,虽然linux的进程体系以及进程调度非常复杂,但是总体看来就是一个沙漏状,而switch_to宏就是沙漏中间那个 最细的地方,想从一端到另一端,必然要经过那个地方,在非新创建的进程的情况下,所有进程都是从标号1开始,让我们先看一下这是怎么回事:
#define switch_to(prev,next,last) do { /
unsigned long esi,edi; /
asm volatile("pushfl/n/t" /
"pushl %%ebp/n/t" /
"movl %%esp,%0/n/t" /* save ESP */ /
"movl %5,%%esp/n/t" /* restore ESP */ / //注意这里已经切换到了新的内核栈,故原来的栈中的局部变量全部失效,因而想得到其值就必须想办法保存它们,为了效率,这里将prev保存在寄存器中, 以便善后使用
"movl $1f,%1/n/t" /* save EIP */ / //这里,只要是曾经在这里被切换出去的进程都会将标号1作为再回来时的eip
"pushl %6/n/t" /* restore EIP */ / //将新进程的eip压入栈中,因为下面是个jmp,而且jmp到的函数最后有一个return,那么按照return的语义,就可以从栈取出eip载入 eip寄存器了,实际上这个对__switch_to的jmp调用就是一个手动的call调用,很巧妙
"jmp __switch_to/n" / //__switch_to是个FASTCALL的函数,eax/ebx寄存器传参数
"1:/t" / //标号1的指令,很简单,但是就是这个简单成全了整体架构的简单
"popl %%ebp/n/t" /
"popfl" /
:"=m" (prev->thread.esp),"=m" (prev->thread.eip), /
"=a" (last),"=S" (esi),"=D" (edi) /
:"m" (next->thread.esp),"m" (next->thread.eip), /
"2" (prev), "d" (next)); /
} while (0)
linux 之所以实现上述的单点切换就是为了降低复杂度,其实很多操作系统内核都是这么做的,这里的单点并不是指switch_to这个单点,而是保存/恢复eip 这个寄存器从而保证所有切换回来的进程都从一个地方开始,但是有点美中不足的就是linux并没有将所有的进程从就绪到开始执行都从标号1开始,看看 do_fork的实现就知道,其实新创建的进程是不这么做的,新创建的进程的eip是ret_from_fork而不是标号1,这个原因是什么?新创建进 程的时候要手工指定一个开始的地址,毕竟它要开始就要有个起点,那么起点在哪里好呢(千万不要和regs.eip相混淆,那个是正常执行时的eip,属于 进程的,创建进程是一个系统调用,系统调用的话就是请求系统内核帮忙做事,然而做事之前要保存自己的当前状态,regs.eip就是属于这个状态的,而这 里的起点是操作系统内核管理进程用的,和进程或者内核线程没有关系的)?最好是模拟该进程和别的已有进程一样是重新开始运行的,这样比较统一又便于管理, 然后将这个开始地址也指为标号1,但是这时标号1在哪里,是标号1在嵌入式汇编宏中导致标号1的地址不好取到吗,如果真的因为这的话,完全可以将标号1分 离出来放到一个地方,然后不管是已经有的进程还是新创建的进程都从这个固定的分离出来标号1的地址处取指令不就可以了吗?内核的设计者不可能还没有我聪 明,那样的话会浪费取指令的时间和空间的,来个间接引用肯定没有嵌入式汇编标号直接,而且还有一个原因,用ret_from_fork完全可以做到和既有 进程的标号1一样的好,我们看看进程切换函数的设计,既有进程的切换都是在schedule里面进入switch_to从而找到标号1的,而在 switch_to之后就剩下一个finish_task_switch和判断重新调度标志了,我们看看ret_from_fork:
ENTRY(ret_from_fork)
pushl %eax //注意刚从switch_to调用的__switch_to中ret回来,正好ret到了ret_from_fork(注意switch_to中jmp 指令前的push),而那个函数返回的就是prev,将其放到了eax中,故这里schedule_tail的参数就是prev,也就是切换出去的进程。
call schedule_tail
GET_THREAD_INFO(%ebp)
popl %eax
jmp syscall_exit
上 面看到ret_from_fork调用的schedule_tail参数是切换出去的进程,而后者马上调用finish_task_switch,这样就 和schedule中的switch_to之后的逻辑对上了,而且参数也没有什么问题,那么finish_task_switch之后的逻辑呢,比如判断 重新调度标志怎么办?那就看看ret_from_fork中的syscall_exit吧,那里面做了判断,如果需要调度,那就会进入正常的 schedule流程,十分正确。其实就是这个finish_task_switch善后惹的祸,不过它的设计也是一个很巧妙的看点,它主要判断原先的进 程是否还有存在的必要,如果已经dead了,那么就是在这里彻底释放其task_struct的,因此必须保存prev的值,因为prev是 schedule的局部变量在prev的内核栈中,在切换到新的内核栈后(schedule函数用到了两个内核栈),prev失效,因此才要保存的。在 do_exit中,即使exit的进程已经没有引用了其task_struct也不能释放,因为linux中没有专门的调度管理器可以发现这一点然后自动 切换到别的进程,最终必须靠退出的进程自己schedule掉才行,而它自己调用schedule的时候它就是current,current最终成了 prev,整个切换过程都需要退出进程的task_struct结构,只有在switch_to到新进程了,才可以将再也没有用的退出进程的 task_struct释放掉。可见进程退出也设计的很好,linux中没有专门的调度管理线程虽然咋一看很不美观,但是它毕竟不是微内核结构,大内核的 优点就是高效,直接让需要切换的进程自己调用切换代码另外别的进程就绪后告诉正运行的进程有切换需要然后着手调度,这种方式肯定最高效,如果设置了调度管 理线程,需要调度时还要通知这个管理器,很多切换很低效,但是却很美观。这一点上,linux中的调度是和谐自发的抢占式协作,而带有调度管理器的内核对 于调度则是强行的管制。
asmlinkage void schedule_tail(task_t *prev)
{
finish_task_switch(prev);
if (current->set_child_tid)
put_user(current->pid, current->set_child_tid);
}
到 此为止,linux的进程切换还是在内核进程管理的代码下,还没有开始和用户进程相关的行为,也就是说regs保存的寄存器还没有起作用,只有内核判断内 核的事情已经完了,没有什么遗漏了才会开始进程本身的工作,也就是RESTORE_ALL的逻辑了。新创建的进程用松散的代码和紧凑的schedule逻 辑达成了一致,然后只要这个新进程开始了,那么它就会进入那个巨大的linux进程切换沙漏从而进入了正常的单点切换流程。
最后我们看一下内核线程的返回值,也就是kernel_thread的返回值问题。其实可以这么理解:根本就不应该这么设计内核线程。 kernel_thread的实现可以看出,内核主要借用了用户进程的创建方式创建了内核线程。在用户空间,进程创建是copy-on-write的,但 是内核线程却没有这一说,而且unix的进程创建就是复制父进程的地址空间而没有任何子进程的特殊策略,特殊行为策略需要以后的exec或者别的方式设 置,而且子进程如何运行需要在父进程的程序源代码中判断fork函数的返回值后加以指定。之所以用户进程创建函数fork的返回值那么重要就是因为父子共 享一个地址空间然后copy-on-write,通过fork的返回值区别父子进程。而内核线程虽然也是do_fork实现,但是它一开始就指定了子进程 的运行函数也就是子进程的行为策略,如此一来do_fork的返回值就显得不是那么重要了,其实在内核中创建内核线程时,根本就不返回0,也没有什么返回 0就是子进程之说,实际上即使在用户空间fork函数调用时,返回的0也不是内核的do_fork返回的,do_fork只会返回新进程的pid,而 fork的0返回值是内核在ret_from_fork之后进入用户空间前RESTORE_ALL的时候pop到eax中的,然后库实现的fork将 eax作为返回值,实际上,fork的子进程在进入用户空间前从来不经过do_fork这条路,可以看看它的thread的eip是 ret_from_fork,也就是只要开始运行子进程,就在switch_to中会执行ret_from_fork,而从ret_from_fork顺 着看,一直就到了RESTORE_ALL从而返回用户空间。对于内核线程,根本就没有子进程返回这一说,子进程也就是新创建的内核线程直接运行,完事了就 直接退出,这样的原因就是在创建子进程时就已经给了它运行策略,如此一来就不需要返回原点来靠返回值分辨父子进程,但是内核线程确实是按照用户进程的那一 套机制创建的啊,子进程也在copy_process复制父进程,这没有什么不同啊,如此怎么能不返回原点呢?其实linux使用了一个骗术,它在创建内 核线程时伪造了一个父进程的现场:
int kernel_thread(int (*fn)(void *), void * arg, unsigned long flags)
{
struct pt_regs regs; //伪造的父进程现场,下面按照内核的机制填充
memset(&regs, 0, sizeof(regs));
regs.ebx = (unsigned long) fn; //子进程也就是内核线程要执行的行为策略
regs.edx = (unsigned long) arg; //参数
...
regs.eip = (unsigned long) kernel_thread_helper; //这个函数管理了子进程的运行到退出
...
return do_fork(flags | CLONE_VM | CLONE_UNTRACED, 0, &regs, 0, NULL, NULL); //实际创建子进程
}
__asm__(".section .text/n"
".align 4/n"
"kernel_thread_helper:/n/t" //这个标号函数管理了内核子进程
"movl %edx,%eax/n/t" //这里事实上冲掉了在copy_thread中被置为0的eax,如此看出eax根本就没有像用户进程创建那样保持为0
"pushl %edx/n/t" //edx里面是内核线程函数的参数
"call *%ebx/n/t" //ebx里面就是内核线程函数指针
"pushl %eax/n/t" //内核线程函数的返回值
"call do_exit/n" //以内核函数返回值作为参数调用do_exit
".previous");
在 创建内核线程的时候将伪造的regs的eip设置为kernel_thread_helper而不是直接设置为要执行的函数是有原因的,总的来 说,kernel_thread_helper为内核子进程提供了一个完整的进程环境,和流程,包括最后退出,如果直接设置为要调用的函数的话,那么就要 该函数自己处理退出,进程创建和退出应该是进程运行的机制,机制就不应该让创建者负责,创建者只管策略,机制应该由内核框架提供。另外可以看到在 do_fork中有一个CLONE_VM标志,难道内核线程还有地址空间不成,其实是没有的,设置那个标志就是为了效率,看过代码就知道,linux在切 换task_struct时,共享VM的不用切换cr3寄存器(当然是在x86上),而内核线程因为没有mm_struct,因此为了使用这个高效的策 略,它就使用一个active_mm字段,本质上就是借用上一个进程的mm,所有mm映射的内核部分都是一样的,而内核线程使用的就是只有内核部分,这样 就不用切换cr3了,然后处理器进入懒惰模式,只有到了那个被借用进程的tlb被刷新的时候才将cr3切换到swapper_pg_dir的物理地址,其 实这个swapper_pg_dir就是所有内核线程们本来应该使用的页目录,这个意义上可以将整个内核线程看作是属于一个内核进程,这个内核进程就是以 swapper_pg_dir为页目录的进程,事实上进程就是一个拥有独立的页目录的执行绪,为了效率才有了借用用户空间进程的mm_struct这件 事,除了swapper_pg_dir是内核线程标准的页目录外不应该为之再新分配任何新的pgd,因此就用了CLONE_VM标志,这样就不会再分配 mm_struct从而也不会分配pgd了,而和原来父进程共享mm的问题可以通过释放掉老mm切换到init_mm来解决,另外正如下面要说的,由于内 核的页映射一样,完全可以借用任何进程的mm从而使内核工作更高效。
tlb懒惰模式可以参考我的《tlb刷新的懒惰模式》一文,大致意思就是,在单cpu下,刷新tlb是一个主动的过程,因此没有什么要说的,主动的过程往往行为很确定,但是smp下就复杂多了,可以简单看一下:
static inline task_t * context_switch(runqueue_t *rq, task_t *prev, task_t *next)
{
struct mm_struct *mm = next->mm;
struct mm_struct *oldmm = prev->active_mm;
if (unlikely(!mm)) { //内核线程
next->active_mm = oldmm;
atomic_inc(&oldmm->mm_count);
enter_lazy_tlb(oldmm, next); //单处理器下什么也不做
} else
switch_mm(oldmm, mm, next); //切换
if (unlikely(!prev->mm)) {
prev->active_mm = NULL;
WARN_ON(rq->prev_mm);
rq->prev_mm = oldmm;
}
...
}
static inline void enter_lazy_tlb(struct mm_struct *mm, struct task_struct *tsk)
{
#ifdef CONFIG_SMP
unsigned cpu = smp_processor_id();
if (per_cpu(cpu_tlbstate, cpu).state == TLBSTATE_OK)
per_cpu(cpu_tlbstate, cpu).state = TLBSTATE_LAZY; //将本cpu的cpu_tlbstate的状态设置为lazy状态
#endif
}
在 smp中,每当要刷新tlb的时候都要往各个处理器上发送处理器间中断--IPI,一旦是lazy状态的cpu接收到了刷新tlb的ipi,那么它就将它 自己从它的cpu_tlbstate的active_mm->cpu_vm_mask掩码中清除,指示以后不要再向它这个cpu发送刷新tlb的 ipi了,因为在lazy模式的cpu当前运行的都是内核线程,所有进程的内核空间都是一样的,因此内核线程用谁的都一样,但是却不很合理,比如一个内核 线程正在用着借来的mm,恰在此时,这个进程在别的cpu上被释放了,当然其mm也被释放了,即使在进入lazy模式前靠 atomic_inc(&oldmm->mm_count)增加了这个mm的计数,那么延迟释放它也是不好的,毕竟有自己的 swapper_pg_dir不用,却非要用别人的mm,其实内容都一样,用别人的mm只会占用内存,因此在一个进入lazy模式的cpu第一次接收到刷 新tlb的ipi时将它的页目录加载为一个安全的值,然后再宣布不接受刷新tlb的ipi,这个安全的值就是内核线程公用而且任何时候都不会释放的 swapper_pg_dir。记住,一旦开始执行非内核线程,那么必须接收刷新tlb的ipi,也就是将cpu的lazy模式清除。

分享到:
评论

相关推荐

    Linux内核进程切换

    Linux内核中进程切换ppt文档,主要介绍Linux内核中进程切换时进行了哪些操作。

    深入linux设备驱动程序内核机制

    深入linux设备驱动程序内核机制 pdf深入linux设备驱动程序内核机制深入linux设备驱动程序内核机制深入linux设备驱动程序内核机制深入linux设备驱动程序内核机制深入linux设备驱动程序内核机制深入linux设备驱动程序...

    Linux内核线程编程方法

    内核线程实际上是内核进程,只是大家的地址空间是内核空间,所以内核线程间的切换没有真正意义上的地址空间切换。

    深度:一文看懂Linux内核!Linux内核架构和工作原理详解

    理解Linux内核最好预备的知识点:懂C语言懂一点操作系统的知识熟悉少量相关算法懂计算机体系结构Linux内核的特点:结合了unix操作系统的一些基础概念Linux内核的任务:1.从技术层面讲,内核是硬件与软

    Linux多线程编程技术

    Linux 内核可以看作一个服务进程(管理软硬件资源,响应用户进程的种种合理以及不合理的请求)。内核需要多个执行流并行,为了防止可能的阻塞,多线程化是必要 的。内核线程就是内核的分身,一个分身可以处理一件特定...

    Linux 中的各种栈:进程栈 线程栈 内核栈 中断栈

    ---------------------------------------------------Linux 中的各种栈:进程栈 线程栈 内核栈 中断栈

    内核线程和进程的区别

    Linux把所有线程都当做进程来实现。内核并没有准备特别的调度算法或者定义特别的数据结构来表示线程。下面一起来看看

    深入理解Linux内核 + Linux内核设计与实现 英文版

    深入理解Linux内核 + Linux内核设计与实现,绝对完整,我最近也在学,建议先学Linux内核设计与实现,对Linux内核有一个大体的认识,在看深入理解Linux内核,要舍得花时间。

    linux内核编译原理

    linux内核编译2.6.39linux内核编译2.6.39linux内核编译2.6.39linux内核编译2.6.39linux内核编译2.6.39linux内核编译2.6.39linux内核编译2.6.39linux内核编译2.6.39linux内核编译2.6.39linux内核编译2.6.39linux内核...

    试验四-基于内核栈切换的进程切换.zip

    试验四-基于内核栈切换的进程切换,回答问题: (1)为什么要加 4096; (2)为什么没有设置 tss 中的 ss0。 答: (1)由于Linux 0.11进程的内核栈和该进程的PCB在同一页内存上(一块4KB大小的内存),其中PCB位于...

    linux内核管理 linux内核管理

    linux内核管理linux内核管理linux内核管理linux内核管理linux内核管理

    linux线程切换和进程切换的方法

    对于linux来说,线程和进程的最大区别就在于地址空间,对于线程切换,第1步是不需要做的,第2是进程和线程切换都要做的。 切换的性能消耗: 1、线程上下文切换和进程上下问切换一个最主要的区别是线程的切换虚拟内存...

    基于嵌入式Linux系统的内核级线程库的研究与实现.pdf

    基于嵌入式Linux系统的内核级线程库的研究与实现.pdf

    易语言查看内核线程

    易语言查看内核线程源码,查看内核线程,EnumThread,EnumDrivers,getdata_int,getdata_str,ZwQuerySystemInformation

    linux内核知识系列:线程&进程

    linux内核知识系列:线程&进程 华嵌智能提供 www.embedded-cn.com http://embedded-cn.taobao.com

    linux多线程及网络编程

    线程是程序中完成一个独立任务的完整执行序列,即一个可调度的...可见,内核线程相当于用户线程运行的‘容器’,一个进程可以拥有M个内核线程和N个用户线程,其中M,并且一个系统的所有进程中,M和N的比值是固定的。

    \嵌入式linux开发教程之进程与线程--千锋培训

    基础知识:线程和进程,二.Linux 2.4内核中的轻量进程实现,三.LinuxThread的线程机制,1.线程描述数据结构及实现限制,2.嵌入式linux开发教程:管理线程,3.嵌入式linux开发教程:线程栈,4.嵌入式linux开发教程:...

    Linux编写内核模块新增系统调用遍历进程树--基于Ubuntu20.04.03LTS实现

    实验目标:在Linux内核中增加一个系统调用,并编写对应的linux应用程序。利用该系统调用能够遍历系统当前所有进程的任务描述符,并按进程父子关系将这些描述符所对应的进程id(PID)组织成树形结构显示。 实验环境:...

    Linux下的LWP(轻量级进程)、进程、线程、用户级线程、内核线程

    本文主要讲解了Linux下的LWP(轻量级进程)、进程 、线程、用户级线程、内核线程的概念、区别与联系、优缺点、发展等相关内容。 本文来自于CSDN,由火龙果软件Linda编辑、推荐。 再看正文之前我要先强调一下几点: ...

    linux内核图解-linux内核图解

    linux内核图解linux内核图解linux内核图解linux内核图解linux内核图解

Global site tag (gtag.js) - Google Analytics