摘要:本期涉猎了操作系统的来龙去脉后与大家携手步入Linux世界。我们力图展示给大家一幅Linux系统的全景图,并为了加深对linux系统的全面认知,亲手搭建了一个能运行在内存中的试验系统。同时为大家提供了几个shell脚本帮助建立试验系统。
用萧亚轩的一首歌形容操作系统给我们的感觉再合适不过了,“最熟悉的陌生人”。
说熟悉,因为几乎每天我们都在有意无意和它打着交道。无论是日常办公,还是畅游网际,我们都无法离开操作系统的帮助。电脑初启,首当其冲运行的就是操作系统。对于许多人而言,电脑就是那扇“窗”。即便远离电脑,我们依然无法逃脱操作系统的“魔掌”。在您收发短信、拨打电话的时候,手机屏幕背后一个嵌入操作系统正在默默为您服务。越来越多的数字设备都开始拥有自己操作系统,虽然它们不同于Bill为我们带来的“窗子”,但并无什么本质的差别。假如有一天,您的电视机开始对您嘘寒问暖,请别忘记,有一个叫做操作系统的东西站在它的背后。
说陌生,因为直接为我们服务的大多属于应用软件,也许是文字处理、也许电子邮件、也许网络游戏。他们都运行于操作系统之上,提供我们所需的服务,这让我们很少直接面对操作系统。对大多数用户而言,操作系统的细节是不可见的,所以虽说我们无时无刻不在使用操作系统,彼此之间却多了一层隔阂。对于操作系统的认识,往往只能停留在间接地、片面地感性基础之上,其内部的运作机制,我们无法一目了然。
无处不在却不以正面相示,让操作系统有了一种“犹抱琵琶”的美,于是操作系统被冠以“最神秘”的称号。
揭开这层神秘面纱,是我们杂志的初衷。我们希望能够诠释操作系统设计思想,和您一起熟悉操作系统提供的各种服务,学习灵活运用这些服务的方法和技巧。我们将以理论讨论结合实例实验方式,让您和我们一起拥有操作系统级开发软件的本领。
好了,开始我们的内核之旅,走近这个“最熟悉的陌生人”吧!
本期目标!
在第一期中,我们将:
提纲挈领地介绍操作系统的基本概念;
理清楚操作系统和其它系统软件或应用软件之间的关系;
了解操作系统的体系结构;
在此基础上,提出操作系统内核概念。
简而言之,希望读者可以在读过本期的内容,能在脑海里勾勒出一幅操作系统的全景图,为日后剖析内核、开发内核创造基础。
学习的最佳方法是实践。
我们的杂志将以实践为主,理论为辅。将实验贯穿到学习、分析当中。
在本期中,为了让读者能比较全面地理解操作系统,并加强对操作系统的感性认识,我们将本期分为两大部分:
第一部分从理论上简要介绍操作系统的内涵,揭示操作系统在软件体系中的特殊地位,然后讨论操作系统的体系结构和演化进程。
第二部重点分析Linux操作系统,介绍Linux操作系统的发源,特色以及内核结构。最后通过和读者一同亲手搭建一个实验操作系统——一个经过裁减具备基本功能的小型Linux,让读者从实践中感受操作系统的体系结构和在计算机系统中所起的作用。
虽然定义总是生硬、乏味、令人费解,但是它毕竟是概括性最强、最能体现水平的,所以我们还是要在开始就给出操作系统定义:
操作系统是应用程序的运行环境。
够精辟吧!
可能运行环境这个术语令你如坠云端,它太广泛、太抽象了。你一定在问运行环境到底是什么?简单地讲,运行环境是一种即服务和控制于一体地容器。
如果你没有理解环境这个概念,我可以举个并不贴切的社会实例。
在开发区中可以看到许多企业孵化池或产业园,其中入住了各种各样的企业,孵化池或产业园的管理机构会统一为其中的企业办理各种工商、保险、卫生医疗等手续、提供后勤、治安等基础服务,企业需要某些政务服务时,可以通过管理机构去和政府联系,处理相关事宜,而不需要亲自去处理这些和企业业务无关的政务活动,因此可以抽出身来集中精力在业务上。孵化池和产业园为企业提供了统一、普遍地服务和管理,是企业运作的外在环境。操作系统从这个意义上来说,类似于产业园的管理结构,为应用程序——好比企业——提供基础服务和管理。
当然,我们现在并不指望你立刻认识到操作系统深刻内涵,对它的认识需要在不断地使用和思考中消化和积累,在本期杂志中,我们将从各种角度介绍“运行环境”这个术语的真实含义,并在今后各期杂志中分阶段、分层次的展开学习操作系统的各个领域。相信在不久的将来,你就能和我们一起认清它的庐山真面目了。
想要认清一个人,最好是从小认识他。对技术的理解也是如此,我们必须了解它的产生原因和发展过程,才能较为全面的认识该技术所解决的问题,认识它在学科发展中所处的地位。对比技术发展各个阶段的特点,才能认清该技术的优劣。同样,我们想要把握操作系统的特性,还是先把操作系统放在时间轴上看看它的来龙去脉吧!
操作系统并不是计算机出现之初就有的,最初的计算机科学中并不存在操作系统这个概念,所有任务都直接运行于硬件之上。那时的任务大多集中于科学计算领域,系统硬件实现相对简单、直接,任务对I/O操作的要求也比较低,将结果记录到磁带机之类的简单设备中足矣。老程序员们大多采用手工或是用打孔机的方式将将二进制数据和程序输入机器内存,然后执行计算,最后,将结果保存到磁带机上。一旦出现错误,机器上的调试灯会将保存在寄存器中的错误代码反映出来,程序员们会据此去分析错误所在。
随着科学计算任务变得越来越复杂,计算机逐渐被应用到了科学计算以外的其它领域。硬件设备比以前更加丰富和复杂了,I/O操作要求大幅提高,程序规模迅速扩大,需要调试的错误更是直线上升,直接操作硬件,对程序员来说变得越发困难。
于是出现了高级语言、编译系统,帮助程序员简化开发工作;出现了操作系统,帮助程序员管理和操作硬件设备。程序员们可以将精力集中于开发需要的任务,烦琐的如任务装载、分配/释放内存、内存寻址、设备驱动、数据存储等等硬件相关操作统统交给操作系统管理——真可以说是生产力的一次解放。
时代继续发展,多用户多任务时代的来临,使得系统管理更加强调资源共享性。用户直接操作系统资源显然有悖于上述精神,因此资源合理分配与保护更为操作系统发展提供了新的挑战和机遇,同时奠定了操作系统不可或缺的地位,从此,操作系统成为为软件体系中最基础,最重要的组成部分了。
从操作系统的起源可以看出,操作系统的核心任务是作为硬件和应用程序之间的一个中间层,或者说是应用程序的一个操作平台,通过它应用程序和系统硬件隔离开,应用程序利用它提供的服务完成硬件相关操作。
总而言之,操作系统方便了应用程序运行,保护了系统资源。具体地讲,操作系统为用户带来了几个方面的好处:
易操作性: 操作系统是用户和计算机之间的接口,它大大简化了用户执行任务的复杂程度。
作为应用程序的执行环境:它为程序员建立应用程序提供了必要的编辑环境、编译环境和调试工具;为程序的执行提供了载入服务和资源分配服务;为数据存取提供了I/O访问服务;为数据格式转化和定位提供了文件操作服务;为程序的安全运行提供了权限控制服务;为程序运行失败提供了错误报告服务等等系统服务,从此,程序员和用户都不再需要关心那些令人生畏的计算机体系结构细节,可以全心全意地开发应用程序了。
有效性:从另一个角度看待操作系统,可以将它认为是一个计算机资源管理系统。
由于系统中资源种类各异,用法也大不相同,如果直接由用户管理这些资源,比如内存分配,时钟计时,I/O驱动,存储维护,势必要求用户具有丰富的软硬件知识,深刻把握计算机系统结构,否则资源将难以合理使用,最终造成系统混乱,甚至崩溃。而且现代的多用户操作系统更是要求系统资源共享,资源必须合理分配给多用户、多任务,只有采用一定的调度策略和分配策略,才能保证资源被公平有效的利用。所以,配置资源成了提高性能的关键——如同资源配置是提高生产力的关键一样。
安全性:安全性是操作系统为我们提供的另一个重要的特点,它为我们提供了多层面的安全保障。
首先,操作系统作为系统硬件和用户的中间平台,禁止应用程序直接操作硬件,禁止应用程序直接访问内存,执行特权指令。多数系统都将应用程序运行限制在用户空间(低特权级),而操作系统则运行于内核空间(高特权级),应用程序只有通过系统调用请求操作系统所提供的接口,才能通过操作系统间接执行和硬件相关的操作或是执行特权指令。因此保护了系统不被恶意的应用程序破坏或非法操作。
其次,多任务多用户操作系统必须保证,不同任务之间信息不能泄漏,因此需要为任务划分各自的私有空间和对其进行访问控制。对不同用户进行相应的授权和认证,可以保护用户各行其是,互不侵犯。
总之,操作系统安全涉及方方面面,健壮的操作系统必须能多方位地保证任务安全执行。
易扩展:计算机技术的高速发展和计算机日益普及,计算机硬件设备不断推陈出新,这要求操作系统提供的服务也能够日新月异,因此要求操作系统具有良好的扩展性。
由于操作系统对系统资源和服务进行了抽象,屏蔽了底层细节,统一了上层接口,添加设备或服务成了一件轻而易举的事,需要做的仅仅是,在设备或服务规定的接口下完成新的实现即刻。
什么是资源?
资源概念在操作系统中使用得相当广泛,内存、磁盘、文件、处理器、时钟等等软硬件都可以划归到资源范畴。资源的概念其实很好理解,概括来讲,系统中的资源指的是系统提供给进程使用的特殊实体,进程通过向操作系统请求获得这些实体,另外,系统分配这些实体给进程前,进程需要挂起等待。凡是满足上述条件的实体就属于资源。
和其它任何事务一样,操作系统并非一成不变。迄今为止,它已经经历了半个多世纪的发展,已经形成了一个庞大的家族。从个人计算机到工作站,从通用系统到专用系统,从嵌入式到虚拟机,可谓形式丰富多样。我们难以将所有操作系统囊括,只希望提纲挈领地介绍在操作系统发展进程中具有代表性的几种系统,理清它的演化脉络。
进化历程 :
最早的操作系统是简单的单道批处理系统。它的功能相当简陋,只能串行执行预先组织好的任务组。早先的系统一次只能运行一个任务,每个任务必须先装入,再等执行完后才能装入下一个任务,重复的装入浪费了大量的时间。单道批处理系统的出现,大大的提高了系统吞吐率。
事情并非总如想象般顺利。
由于数据存储时所消耗的时间——I/O操作时间——相比数据处理时间——CPU操作时间——要高出数倍(往往在20倍以上),所以程序运行到I/O操作期间,CPU总是需要停下来(挂起)等待数据传输完成,无形中浪费了大量宝贵的时间,任务组中后续程序的执行也因此被延迟了。如何避免数据传输等待带来的时间浪费呢?能否在进行传输期间,解放CPU去执行别的任务呢?
为解决这个瓶颈,单道批处理系统进化到了多道批处理系统。
所谓多道就实际就是说,处理器(当然现在谈到的都属于单处理器系统)可以交错运行多个程序,某个任务挂起时,运行另一个程序。这样一来, CPU等待数据传输造成的时间浪费问题得以解决,系统吞吐率又一次得到了提高。
计算机的发展使得任务不再仅仅局限于科学计算,越来越多的应用于办公、生活等日常活动中。科学计算中的任务多数执行路径都是固定不变,预先定义好的,只需要给定输入,得到结果期间程序执行中途不需要外界干预,与之不同,办公,生活中的许多任务都必须和用户不断交互,任务结果随时都会因为用户的选择改变。这时的系统变得更公开、更普遍,往往允许多个用户可以同时使用。交互模式和共用模式需要任务响应时间尽可能的快(超过20秒的话,人的思维就容易被打断或变得很不耐烦),这样才能让多个用户都满意,于是操作系统开始采用分时技术,处理器的运行时间分成数片,均分或依照一定权重派发给系统中的用户使用。这种将处理器虚拟给多用户共同使用的方法,不但可以满足快速响应,而且也可以使得所有用户获得计算机完全是在为自己服务的假象。
上面给出了操作系统发展的主流路线:单道批处理——多道批处理——分时系统,除此以外现在还出现了许多分布式操作系统,嵌入系统,不过总体技术思路都仍然脱离不了多道、分时等概念。
操作系统的演化使得其功能变得愈来愈强大,但结构也越来越复杂。在以方便用户(包括开发人员和终端用户)为宗旨的思想下,操作系统不断集成新功能,新服务。回忆从前大家使用的DOS系统仅仅只需要一张软盘,而如今的windows系统或Linux系统动辄就需要数张光盘,可见已经从过去的麻雀变成了恐龙——虽然它们都有五脏六腑。
虽然变成了恐龙,但是其结构还时相对稳定,清晰的。和软件工程提出的思想一致,操作系统也采取了分层结构,越向上层抽象都越高,越接近用户;相反越向下层,越靠近硬件,抽象也相对接近硬件。而且高层软件依靠下层软件提供的服务,再加上本身提供附加服务为更高层服务。总体来讲呈现倒金子塔形式。
下面我们就简要分析一下操作系统的体系结构,然后再谈谈操作系统设计时需要主要考虑的问题。
在形形色色的操作系统之中,组成结构不尽相同。因为同样目的实现的手段可以自由选择,所以其组成也有很大差异,我们选取最普遍的操作系统(UNIX)组成结构,向大家揭示操作系统的体系结构的大致框架。对于各种操作系统之间的具体差异,大家可以以下面讲述的结构对比认识。(注意我们这里所说的操作系统属于宏观概念,接近于操作系统发行版,不但包括了内核,还包含了学多系统软件和基础应用软件。)
我们用一组简单的数学公式来描述操作系统的组成要素:
操作系统 = 内核+系统程序
系统程序 = 编译环境
+ API + AUI
编译环境
=
编译程序+连接程序
+
装载程序
API
= 系统调用
+
语言库函数(C,C++,Java,etc)
AUI
= shell +
系统服务例程(如x服务器等)+应用程序(浏览器,字处理,编辑器)
操作系统最底层的组件是内核,其上层搭建了许多系统软件。系统程序包括三个部分。这三个部分分别是:编译环境、应用程序接口和用户接口。编译环境包含汇编,C 等低高级语言编译程序,连接程序和装载程序,这些程序负责将文本格式的程序语言转变为机器能识别和装载的机器代码;应用程序接口(API)包含内核提供的系统调用接口和语言库,系统调用是为了能让应用程序使用内核服务,语言库函数则是为了方便应用程序开发,所以将一些常用的基础功能预先编译以供使用,比如对C语言来说常用的C库有gun C等;用户接口(AUI)包括我们熟悉的shell(关于shell 应该专门写一个教程)、系统服务程序和常用的应用程序。
这些部分并非所有的操作系统都必须一个不少的包含,不过其中大多数功能都应该提供,尤其内核,系统调用,shell这些基本组件,它们都属于操作系统必备组件,其它组件是否包含需要根据具体系统的要求和应用环境决定,你也可以将其归为操作系统之外的附加部分。
下图描述了操作系统的全部概念结构

系统程序:系统程序是相对应用程序而言的,应用程序针对终端用户需求完成功能,而系统程序则是为了简化应用程序的开发而存在的,比如数据库系统为了应用程序提供了有效的数据传输,存储服务;还有编程语言的执行环境——它由C库实现——也属于一种系统程序,它为应用程序开发提供了诸如I/O操作例程,图形库,计算库等等基础服务。可见系统程序范围覆盖很广,只要面相服务群体不是最终用户的软件都可以划归到系统软件中来。
操作系统最核心,最基础的组件就要属内核了——内核和操作系统的其它系统软件或应用程序本质的区别在于内核运行在高特权级,和硬件直接交互,操作权限几乎不收任何限制,因此内核程序编写也要求格外谨慎,必须保证效率和可靠。
特权级别:现代体系结构中往往为了保护操作系统(内核)专用的数据不被应用程序访问,以免关键数据泄露或系统被破坏,将系统(硬件机制)划分为不同的特权级别,敏感数据存在高特权级,且还规定了一些特权指令,其它级别的任务不能访问敏感数据和使用这些特权指令,只有处于特权级别的任务才有权使用。比如Ox86体系结构中存在4个特权级别(0,1,2,3)Linux操作系统将内核存在0级,其它任务运行在3级。0级被称为内核空间,3级被称为用户空间。
内核作为操作系统的核心,运行级别最高。其它系统程序都必须通过它才可以使用系统资源,获取系统服务。所以内核使用最为频繁,一切系统行为无论巨细都要通过内核参与。
因此内核运行效率和正确性对整个系统的运行效率和可靠性至观重要,如果内核效率稍微下降,那么在应用程序中就必然造成层层放大。
内核要求高效率,所以它必须自系统运行起就要载入内存,并且在运行期间一直驻留在内存中,直到系统关闭。这是内核与其它应用程序或系统程序的另一个显著区别。虽然说内存今天已经不再是天价了,但是毕竟内存容量有限,所以内核大小不能过大(Linux内核只有几M或十几M,甚至可以裁减得更小),因此内核只应该包含最基础和核心的功能,其它附加功能应该尽量提到用户空间完成。
那么到底有那些功能是操作系统使用最频繁,最需要在内核中实现的呢?内核直接架构于硬件资源之上,因此首先要做的就是对硬件的资源管理。因此内核必须负责:内存管理,进程和进程调度(对CPU的管理),文件系统管理,I/O处理等任务。
我们的杂志核心就是在解释内核原理的基础上,带领大家学习内核级别的开发,也就是说进行核心开发。本期仅仅给大家一个概念上的说明,描述内核设计需要完成的主要任务,至于具体内核各部分的详细讨论在后续期刊中将逐步展开。
内核至少需要包含如下几个模块。
进程管理:进程是操作系统中的执行代码,是任务在系统内的动态化身。内核必须负责将任务抽象为进程,而且必须能将进程执行,能为进程分配资源,维护进程的执行状态,提供进程间通讯方法。更进一步讲,进程管理还必须保证进程运行的可靠性,因此需要提供进程同步,互斥,防死锁等等服务,另外进程调度也是进程管理中的重要任务。
内存管理:计算机存储部件由快到慢、由小到大分为缓存、内存和磁盘。其中最主要和必须是内存,内存管理包括内存的分配和释放,以及访问保护等。另外对使用虚拟内存的系统,内存管理还包含虚拟内存管理,磁盘交换管理,内存影射等等。
文件系统:文件是多数系统中用户使用和管理数据的主要方式,文件系统需要负责用户文件访问,访问权限控制,文件格式转换,数据传输等一系列问题。
设备管理:除了存储设备外,系统还有大量外设需要操作系统管理,比如时钟,网卡,键盘,磁盘等等,设备管理需要负责驱动这些设备为上层调用服务。
I/O管理:操作系统中I/O管理负责处理复杂的I/O操作,其中包括I/O缓冲和磁盘调度等。
另外中断管理也是操作系统内核应该实现的功能。
以上是操作系统内核设计要考虑的主要问题,其中各种模块彼此相互交错、相互利用。不过这些模块的划分并不是绝对的,在实际系统中可能有不同的组合或更细致地划分,因此我们不必追究模块的具体内容,需要关注的是内核究竟需要完成那些功能。
内核模块大致也有层次之分,我们可以这样理解层次含义:直接和硬件作用的是硬件抽象层,和用户更靠近的属于逻辑抽象层。
所谓硬件抽象层,是指管理硬件设备的模块,比如存储管理、设备管理这些模块将硬件功能抽象为内核数据结构和接口函数,以供上层使用。比如磁盘设备驱动,需要将磁盘设备功能抽象为打开open,写入(write),读取(read)等接口函数;内存管理需要将内存抽象为页、段等结构体。然后分配、合并、释放等工作都是通过操作这些抽象得来的结构体,再由这些结构影射到内存的物理实体上去的完成实际操作的。
所谓逻辑抽象层最主要的目的是为了贴近用户需求,最重要的逻辑抽象模块就是文件系统,文件系统的存在完全是从用户角度出发设计的,因为用户最能接受以用文件形式包装的信息,所以文件系统属于逻辑上的抽象,因为物理设备中没有对应文件的实体。
对于进程管理来说,其中进程执行和调度要和处理器打交道,应该说属于硬件抽象层,但其中进程状态维护,进程通讯等更接近用户使用,因此可以归结到逻辑抽象层。
另外I/O管理和中断管理些模块,在内核中属于为其它模块服务的借用力量,它们主要被文件系统或设备管理模块使用,但总之是面向硬件的,所以也可以将其归为硬件逻辑层。
下面图示了内核主要模块之间的联系。