在许多用户看来,一个Web网站的成败主要在于它所提供的内容和功能,殊不知支持这些内容和功能的Web服务器才是真正的幕后英雄。据统计,全世界已有500多万个网站。每个网站的后面都运行着一个Web服务器,那么什么是Web服务器?它是怎样工作的?...... 从C/S到Web 最早的网络系统是简单的主机/终端系统,所有的应用程序都由主机完成,终端只是运行服务器上相应的程序。PC时代的到来,使计算机网络和计算机应用得到了很大的发展,由于PC价格的不断下降和性能的不断提高,面向终端的大型主机的应用领域越来越少。特别是网络操作系统如NetWare和Windows NT的兴起,以及网络数据库系统的出现,开辟了网络应用的新模式——C/S(Client/Server-客户/服务器)模式。C/S模式是一种两层结构的系统,第一层是在客户机上处理表示逻辑与业务逻辑,第二层则是通过网络运行的数据库等服务器系统。C/S模式将事务分开进行处理,实现了网络的分布式计算,很长时间里也帮助企业实现了局域网建设,完善了企业内部业务管理,提高了工作效率。然而C/S模式在系统的集成与维护、操作界面一致性、系统的扩展性等方面都存在明显的局限性,所以就象主机/终端式网络被C/S模式的网络系统所取代一样,在Internet/Intranet技术环境里,也会出现更新的系统模式。 基于Web技术的Internet/Intranet近年来已经得到了广泛的应用,Intranet是以TCP/IP协议为基础、以Web为核心的企业内部网,用户通过低成本、简单易用的客户浏览器就能随时随地到企业的Web站点上查阅自己所需的数据。浏览器客户端操作界面的一致性避免了C/S模式客户端程序的多样性,而服务器端的开放和基于标准的连接方案使企业很方便地通过Internet同外界联系;同时,Web信息动态的、交互式的发布方式从根本上改变了企业的服务质量,增加了企业的商业机会。 图1 Web三层结构 在三层结构的Web技术中,数据库不是直接向每个客户机提供服务,而是与Web服务器沟通,实现了对客户信息服务的动态性、实时性和交互性。这种功能是通过诸如CGI、ISAPI、NSAPI以及Java创建的服务器应用程序实现的。如图1所示。 什么是Web服务器(Web Server) Web技术的独特之处是采用超链接和多媒体信息。Web服务器使用超文本标记语言(HTML-HyperText Marked Language)描述网络的资源,创建网页,以供Web浏览器阅读。HTML文档的特点是交互性。不管是一般文本还是图形,都能通过文挡中的链接连接到服务器上的其他文档,从而使客户快速地搜寻他们想要的资料。HTML网页还可提供表单供用户填写并通过服务器应用程序提交给数据库。这种数据库一般是支持多媒体数据类型的。 Web浏览器(Web Browser)是一个用于文档检索和显示的客户应用程序,并通过超文本传输协议HTTP(HyperText Transfer Protocol)与Web服务器相连。通用的、低成本的浏览器节省了两层结构的C/S模式客户端软件的开发和维护费用。目前,流行的Internet Explorer和Netscape Navigator除提供基本的文档检索、显示和导航特性外,还支持HTML的高级显示(如表和帧)以及ActiveX、Java、JavaScript等特性。 Web服务器是怎样工作的 在许多用户看来,一个Web网站的成败主要在于它所提供的内容和功能,殊不知支持这些内容和功能的Web服务器才是真正的幕后英雄。那么,一个Web服务器是怎样工作的呢? 几年前,当Web服务器刚刚出现的时候,它所支持的应用只是简单的HTML文件和图像的浏览,当Web服务器接到一个对Web页面的请求,如http://www.ccidnet.com.index.html,就会通过URL(Uniform Resource Locator-统一资源定位器)定位到相应的宿主文件服务器上,并找到相应的文件index.html,然后从宿主文件服务器上下载该文件并通过HTTP协议把它传输给Web浏览器(Web Browser)。当然,这只是一个基础功能,Web服务器同Web浏览器之间的关系远非这样简单。Web应用的最重要的一个扩展是动态内容的引入。例如,Web服务器可以根据用户输入的请求,去直接或间接地创建Web网页,然后返回给Web浏览器。最早实现动态内容应用的方法是通过CGI(Comman Gateway Interface公共网关接口),它对Web服务器上程序的运行及Web服务器同Web浏览器之间动态内容的传输有一个基本的定义。如图2 所示。 Web应用的另一个进展是HTTPS(HyperText Transmission Protocol, Secure安全超文本传输协议)的出现,这种协议保证了Web服务器和Web浏览器之间的通信安全,从而使得电子交易成为可能。 Web服务器同Web浏览器之间的通信是通过HTTP协议进行的,那么,什么是HTTP协议?简单说,HTTP协议是Web浏览器和Web服务器之间的应用层协议,它基于TCP/IP协议,是通用的、无状态的、面向对象的协议。它的作用原理包括四个步骤: 图2 CGI定义图 连接:Web浏览器与Web服务器建立连接,打开一个称为socket(套接字)的虚拟文件,此文件的建立标志着连接成功。 请求:Web浏览器通过socket向Web服务器提交请求。 应答:Web浏览器提交请求后,通过HTTP协议传送给Web服务器。Web服务器接到后,进行事务处理,处理结果又通过HTTP传回给Web浏览器,从而在Web浏览器上显示出所请求的页面。 关闭连接:当应答结束后,Web浏览器与Web服务器必须断开,以保证其它Web浏览器能够与Web服务器建立连接。 这样,Web服务器的处理过程包括了一个完整的逻辑阶段:接受连接——产生静态或动态内容并把它们传回浏览器——关闭连接——接受下一个连接,如此进行下去。可以想象,在访问者多的情况下,服务器必然会应接不暇。解决这个问题可以借助两种技术:多线程和多进程。Web服务器支持Unix系统的端口监视模块(一种多进程的模式)、多线程、多进程或两种技术的混合。 有了连接,Web服务器怎样向Web浏览器提供内容呢?这里的关键是内容必须能为浏览器识别并且表现出来。这其中决定如何显示内容的主要机制是MIME(Multiple Purpose Internet Mail Extension-多用途因特网邮件扩展)类型,MIME会告诉Web浏览器什么样的文档将被发送,而且,这种类型的鉴别并不局限于简单的图象文档和HTML文档。例如,Apache WebServer 的mine.type配置文件中有370种缺省的MIME类型,而且这还不是MIME类型的全部。MIME类型通过与文件后缀相关的类型/子类型语法来区分,例如,包含MPEG视频内容的文件会有mpeg、mpg或mpe的后缀。 Web服务器的作用最终体现在对内容特别是动态内容的提供上,这也是Web服务器同应用服务器的根本不同,Web服务器主要负责同Web浏览器交互时提供动态产生的HTML文档(除了提供HTML文档服务外,Web服务器还提供诸如XML格式的应用数据,也就是说,Web服务器不仅仅提供HTML文档,还可以在更大的范围内与各种数据源建立连接,为Web浏览器提供更丰富的内容。) 实现Web动态内容的技术有很多,第一种是CGI,它根据用户输入的请求动态地传送HTML数据。CGI并不是开发语言,它只是能够利用为它编写的程序来实现Web服务器的一种协议。由于每一次对于动态内容的请求都需要启动一个新的CGI程序,因而会增加Web服务器的负担,所以CGI的一个很大的缺陷是容易影响Web服务器的速度。 Microsoft ASP(Active Server Pages-动态服务器页面)技术由嵌入在IIS里的VBScript解释器构成,同时它还支持多种脚本语言,包括JavaScript、PerlScript以及VBScript,以COM为基础,它可以很容易地访问其他服务器的软件组件。 PHP象JSP和ASP技术一样是由一套放在HTML文档里的附加的代码标记组成。不同之处是它专为开发Web网页而用,所以用它开发的应用会比用VBScript或JSP等开发的相应的应用更为简洁。 今天所有的Web服务器都支持Perl的加速解决方案。Apache的mod_perl免费解决方案就把Perl嵌入了Apache服务器。这样不仅提高了Perl代码的解释速度,而且由于mod_perl缓存作用,代码的执行效率也会有很大的提高。Mod_perl还同Apache紧密相连,因此Perl开发人员可以象C语言开发人员编写底层的Apache API程序一样控制Web服务器的工作。 在系统运行时,Web服务器往往要支撑大量而又密集的用户点击和对动态内容的需求,所以即使再高档的服务器设备,面对不断增加的用户,单位时间内所支持的访问量也是会有一个限度,尤其是对于动态内容较多的情况,因为动态内容的应用需要频繁地调用数据库的数据和应用程序,会占用大量的服务器资源。这时就需要在多个服务器设备之间或多个站点之间分散服务器的负载。 负载均衡的方法有很多,最简单的方法是在不同的服务器之间分配网站的内容。例如,在一个服务器上存放静态HTML页面,另一个上面存放图象文件,而在第三台上运行所有的CGI程序。不过很明显,这种方法效率不会很高,因为它无法在主机之间实现自动的内容分配,如果其中某一方面的内容过多,仍然会形成负载瓶颈。 DNS负载均衡(Domain Name Server-域名服务器)的基本方法是把同一站点的不同的拷贝放在相同的物理服务器上,然后,DNS服务器可以返回多个IP地址,方法是DNS服务器既可以返回域名的多个IP地址,也可以对同一个DNS请求返回不同的IP地址。由于难以确定一个客户端对应的是哪一个IP地址,所以DNS只能提供基本的负载均衡服务。而且,由于DNS请求留在了客户端和其它的服务器的缓存里,同一个客户端会继续访问同一个Web服务器。所以就有可能造成一大批频繁上网的用户用一个IP地址,而另外较少上网的用户却访问另一个IP地址,从而造成分配不均。还有一个问题是DNS的缓存并不是持续激活的,这就可能造成当一个客户端正在使用一个Web站点时,会结束对该站点其它IP地址的访问。这会给动态网站带来问题,特别是对于需要接受并存储客户端的数据的情况。 软、硬件的负载均衡方法与DNS负载均衡相似,但网站只发布一个IP地址,专门设置一台机器接受针对这个IP地址的HTTP请求并把这些请求分发给网站的各个服务器。这种分发通常发生在TCP/IP路由的层次上,可以透明地把这个单一的源/目标IP地址映射到一个特定的服务器上。这种技术