北京恒泰通力信息技术有限公司

解决方案

当前位置：首页 > 解决方案 > F5负载均衡参考方案二

F5 服务器负载均衡解决方案

一．大量数据处理所面临的问题

在现今的企业中，不论是否提供关键性任务的服务，都需要一个持续运行不断的高可用性网络计算环境以维持不间断的高品质服务。所谓高可用性的环境，也是信息管理人员所必须考虑的四件事：

1. 使数据有一个安全的存储和运作方式，即使在设备故障时仍能保持数据的完整一致。

2. 使服务器系统持续运行，即使发生故障仍然让服务持续下去。

3. 使整个计算环境能更好的管理，如何容错、容灾、集群共享。

4. 如何使投资有最好的效益，使系统有最佳的扩充能力，有最低的整体拥有成本，也就是在任何情况之下均能确保数据的完整一致，系统持续运行，使服务不间断，同时有最好的投资回报率。高可用性被定义为计算系统的连续运行。根据故障停机的业务影响，应用系统需要不同的可用性水平。要想实现一个应用系统的高可用性，所有组件(包括应用和数据库服务器、存储设备以及端到端网络)都需要提供连续的服务。企业和机构对网络化应用及 Internet 的日益依赖，加上语音和数据的集成，创造了对高可用性应用的增加需求。任何类型的系统故障停机都可能意味着收入、信誉和客户满意的巨大损失。高度网络可用性的利用，企业实施高可用性网络来：高度网络可用性的利用，企业实施高可用性网络来： ? ? ? ? ? ? ? 防止财务损失防止生产力损失改进用户满意度改进客户满意/信任降低反应性 IT 支持成本，提高 IT 生产力部署关键任务应用支持新业务实践的好处典型的业务要求为了实现高度的网络可用性，需要部署下列组件：为了实现高度的网络可用性，需要部署下列组件： ? 可靠的网络设备 H/W 和 S/W 冗余及软件可靠性弹性网络技术确保任何设备或链路故障快速恢复的功能性网络设计定义良好的网络拓扑和配置，旨在以一种优化和计划良好的方式利用网络弹性功能。最佳实践定义良好的网络部署和维护过程，以及简化这些政策实施所必需的事件和变化管理工具全球性支持全球性积极的支持和纠错支持，可以实现抢先的快速反应维护支持行业伙伴关系确保端到端应用可用性的技术、支持服务及最佳实践的集成 .

1．目前存在隐患

1.1 由于采用双机备份方式成本太高,如果不能建立有效的冗余技术,服务器不能保障得到 24*7 持续服务质量.

1.2 在广泛开展业务时,在流量的非线性变化或不平衡动态中,有可能需要根据具体情况增加或删除业务服务器,而增加与减少业务服务器材必须更改系统的 IP 地址指向, 造成业务服务器的扩展达不到新业务的需求.

1.3 大量开展业务使服务器数量急剧增加,而如何管理监控服务器的流量,以便随时掌握服务器的负载情况和趋势是一个较大的难题.

1.4 服务器需要与许多异种架构系统配合,联网环境复杂,黑客攻击与病毒,蠕虫等侵入的可能性相对核心网络系统大,因为服务器的 IP 地址裸露在网络中使得服务器的安全性得不到保障

2．应用系统问题综述：

峰值1) “峰值”问题应用服务器的业务一般多为联机业务。联机业务的处理多存在“波峰”和“波谷” 的变化。而且“波峰”时，业务量大小的变化又不规律，这就使应用服务器不得不面对“峰值堵塞”问题。原有解决方法为增加应用服务器或主机数量，提高处理能力。但仍存在性能不平衡问题，且这样做，投资成本大。

多米诺” 2) 多米诺”现象单台服务器的设置，不可避免会出现“单点故障” 需要进行服务器“容错” ，。为实现容错，往往在主服务器旁安置一台或多台备份服务器。但这样做，平时只有一台服务器工作，其它服务器处于空闲状态，无法完全利用所有服务器的处理资源，投资得不到充分利用。且当出现“峰值堵塞”时，所得到的往往是“多米诺”效应，即所有服务器连续被“堵”至“死” 并且，当所有服务器都损坏时，无法动态地、合理地利。用其它资源提供服务或备份。

N+1” 3) “N+1”方式这种方式也是在应对服务器“容错”时，提出的应用方式。，即业务处理集群， “N” “1” 即一台备份机。，我们注意到，虽然存在一台备份机，随时准备对业务处理集群中的任意一台服务器进行备份，但是，如果又有服务器或更多服务器（软硬件）出现故障呢？所以 “N+1”也不能很好地完成系统 “容错” 。

4) “扩展”不便扩展” 随着物理和应用的集中，应用服务器上所要处理的数据量（traffic）增大，客户交易产生的同时连接（concurrentconnection）数量会越来越多。 ? 若处理资源不够，在未超出系统容量时，往往是客户的请求回应越来越慢，可容纳的同时连接数量逐渐减小，系统性能严重下降。 ? 当超出系统容量后，系统“死机” 业务中断。，为应对日益增多的业务量，系统的扩展性尤为重要。当前所采用的扩展方式多为利用 CLUSTER 的方式。但这时，需要配置 CLUSTER 卡和 CLUSTER 集线器。 · · · 这些硬件设备成本高，投资大。 CLUSTER 对硬件系统存在限制。 CLUSTER 的容量有限。所有这些都会使系统“扩展”不便。

5) “免疫力”差免疫力” 由于系统服务器“裸露”于网络连接中，而防火墙的安置又多在网络总入口处，所以服务器很容易受到来自各方面的“恶意性”或“无意”地攻击。为每台或每组服务器单独设置防火墙，又会使系统投资加大，维护量大幅提高。

6) 应用与网络脱节系统的变化随时随地都会发生，完全靠人工的方式去调整网络与之适应，已经显出了其“非时时地”、 “不灵活的”缺陷。如何使应用的变化动态地反映到网络的调整，已经成为现代化应用系统的一个新的课题。

二．F5 解决方案

2.1 网络结构

如前所述应用系统出现的问题，经过认真的分析，结合 F5 在业界多年的经验，利用 F5 的流量管理设备提供良好的“备而不闲”的解决方案。“备而不闲” 在这种结构下，F5 BIGIP 与上联的防火墙和下联的交换机都采用交叉全冗余线路连接，因此需要在防火墙，BIGIP 和 siwtch 上都开启 spanning-tree 协议，从而避免环路的产生。在 F5 上会添加一个 virtual server，映射到后台 server 上。只需要将 dns 记录指到 F5 上的 virtual server，即可把用户导向到 F5 上。当用户访问这个 virtual server 时，流量会被均匀的负载均衡到后台 server 上。如果某台 server 设备发生故障，F5 将自动发现并不再把流量发送到这台故障的 server 上，从而实现 server 的高可用。在需要扩展时，只需将新的服务器设备连接到网络中，在 F5 上做一些设置即可。不会对现有网络产生任何影响的情况下就可以实现无缝扩展。

2.2 方案优势

2.2.1 避免“不平衡”现象避免“不平衡” 如果能够充分利用所有的服务器资源，将所有流量均衡的分配到各个服务器，我们就可以有效地避免“不平衡”现象的发生。 BIGIP 是一台对流量和内容进行管理分配的设备。它提供 12 种灵活的算法将数据流有效地转发到它所连接的服务器群。而面对用户，只是一台虚拟服务器。用户此时只须记住一台服务器，即虚拟服务器。但他们的数据流却被 BIGIP 灵活地均衡到所有的服务器。这 12 种算法包括：轮询（Round Robin）：顺序循环将请求一次顺序循环地连接每个服务器。当其中某个服务器发生第二到第 7 层的故障，BIGIP 就把其从顺序循环队列中拿出，不参加下一次的轮询，直到其恢复正常。比率（Ratio）：给每个服务器分配一个加权值为比例，根椐这个比例，把用户的请求分配到每个服务器。当其中某个服务器发生第二到第 7 层的故障，BIGIP 就把其从服务器队列中拿出，不参加下一次的用户请求的分配，直到其恢复正常。优先权（Priority）：给所有服务器分组，给每个组定义优先权，BIGIP 用户的请求，分配给优先级最高的服务器组（在同一组内，采用轮询或比率算法，分配用户的请求）；当最高优先级中所有服务器出现故障，BIGIP 才将请求送给次优先级的服务器组。这种方式，实际为用户提供一种热备份的方式。最少的连接方式（Least Connection）：传递新的连接给那些进行最少连接处理的服务器。当其中某个服务器发生第二到第 7 层的故障， BIGIP 就把其从服务器队列中拿出，不参加下一次的用户请求的分配，直到其恢复正常。最快模式（Fastest）：传递连接给那些响应最快的服务器。当其中某个服务器发生第二到第 7 层的故障， BIGIP 就把其从服务器队列中拿出，不参加下一次的用户请求的分配，直到其恢复正常。观察模式（Observed）：连接数目和响应时间以这两项的最佳平衡为依据为新的请求选择服务器。当其中某个服务器发生第二到第 7 层的故障， BIGIP 就把其从服务器队列中拿出，不参加下一次的用户请求的分配，直到其恢复正常。预测模式（Predictive）：BIGIP 利用收集到的服务器当前的性能指标，进行预测分析，选择一台服务器在下一个时间片内，其性能将达到最佳的服务器相应用户的请求。(被 BIGIP 进行检测) 动态性能分配（Dynamic Ratio-APM):BIGIP 收集到的应用程序和应用服务器的各项性能参数，动态调整流量分配。动态服务器补充（Dynamic Server Act.):当主服务器群中因故障导致数量减少时，动态地将备份服务器补充至主服务器群。服务质量(QoS)：按不同的优先级对数据流进行分配。服务类型(ToS)：按不同的服务类型（在 Type of Field 中标识）对数据流进行分配。规则模式：针对不同的数据流设置导向规则，用户可自行编辑流量分配规则， BIGIP 利用这些规则对通过的数据流实施导向控制。

2.2.2 解决因“峰值堵塞”带来的性能调整“不平衡” 解决因“峰值堵塞”带来的性能调整“不平衡” 当出现流量“峰值”时，如果能调配所有服务器的资源同时提供服务，所谓的 “峰值堵塞”压力就会由于系统性能的大大提高而明显减弱。由于 BIGIP 优秀的负载均衡能力，所有流量会被均衡的转发到各个服务器，即组织所有服务器提供服务。这时，系统性能等于所有服务器性能的总和，远大于流量“峰值” 这样，即缓解了 “峰值堵塞”的压力，又降低了为调整系统性能而增加的投。资。

2.2.3 避免“多米诺”现象避免“多米诺” BIGIP 将所有的服务器组织在一起提供服务，流量压力合理地分担到各个服务器，不会使服务器如同单台设备工作时出现“多米诺”现象。当本地服务器群中的服务器数量不能满足系统要求时， BIGIP 会利用“动态服务器补充”功能自动调入服务器补充系统性能。并且即使当所有服务器都不能提供服务时， “Redirect”功能会把用户数据请求转发到“备份”点，满足系统的可靠性要求。

2.2.4 更好的提供系统容错，提高系统可靠性更好的提供系统容错， “N+1”方式因备份服务器的数量少而不能有效的提供系统容错能力。 BIGIP 将用户的服务请求均衡到所有的服务器。服务器群中的任何一台或多台设备发生故障后，用户的服务请求被均衡到其它服务器。而且，当本地服务器群中的服务器数量不能满足系统要求时， BIGIP 会利用“动态服务器补充”功能自动调入服务器补充系统性能。如何有效地确定服务器、应用、内容的状态，使提高系统可靠性的关键。B IGIP 利用其独到的、高效的“健康检测”手段，识别服务器、应用、内容的状态。它们包括： ? ? ? 服务器逻辑连接状态检测应用类型状态检测扩展内容查证(ECV: Extended Content Verification)--ECV 是一种非常复杂的服务检查，主要用于确认应用程序能否对请求返回对应的数据。如果一个应用对该服务检查作出响应并返回对应的数据， BIGIP 控制器将该服务器则标识为工作良好。如果服务器不能返回相应的数据，则将该服务器标识为宕机。宕机一旦修复，BIGIP 就会自动查证应用已能对客户请求作出正确响应并恢复向该服务器传送。该功能使 BIGIP 可以将保护延伸到后端应用如 Web 内容及数据库。BIGIP 的 ECV 功能允许您向 Web 服务器、防火墙、缓存服务器、代理服务器和其它透明设备发送查询，然后检查返回的响应。这将有助于确认您为客户提供的内容正是其所需要的。 ? 扩展应用查证(EAV: Extended Ap plication Verification)EAV 是另一种服务检查，用于确认运行在某个服务器上的应用能否对客户请求作出响应。为完成这种检查，BIGIP 控制器使用一个被称作外部服务检查者的客户程序，该程序为 BIGIP 提供完全客户化的服务检查功能，但它位于 BIGIP 控制器的外部。例如，该外部服务检查者可以查证一个从后台数据库中取出数据的应用能否正常工作。 EAV 是 BIGIP 提供的非常独特的功能，它提供管理者将 BIGIP 客户化后访问各种各样应用的能力，该功能使 BIGIP 在提供标准的可用性查证之外能获得服务器、应用及内容可用性等最重要的反馈。该功能对于提高系统可靠性至关重要，它用于从客户的角度测试您的站点。例如，您可以模拟客户完成交易所需的所有步骤－连接到应用服务器或中间件服务器、从目录中选择项目以及验证交易使用的信用卡。一旦 BI GIP 掌握了该“可用性”信息，即可利用负载平衡使资源达到最高的可用性。BIGIP 已经为测试多种服务的健康情况和状态，预定义了扩展应用验证(EAV)，如：FTP、 NNTP、 SMTP、 POP3 和 MSSQL 等，用户还可依据实际应用，自行编辑 EAV 脚本。

2.2.5“扩展”灵活 “扩展” 根据系统的发展、业务的增长，进行灵活的扩充，是不可避免的。这不仅要顾及到数量的增长，同时也要考虑到软硬件类型的区别。 BIGIP 对系统的扩充是非常灵活的。 ? BIGIP 对所连接的服务器群的数量没有限制，同时对服务器的软、硬件类型也没有任何限制。 ? BIGIP 可最大同时容纳多达 4 百万个会话业务。在需要扩展时，只需将新的服务器设备连接到网络中，在 F5 上做一些设置即可。不会对现有网络产生任何影响的情况下就可以实现无缝扩展。

2.2.6“免疫力”强 “免疫力” 在图中我们可以看到，应用 web 服务器群或中间件服务器群在逻辑上位于 BI GIP 之后，所有的数据流，包括“攻击性”数据流都要经过 BIGIP 才能够流至服务器。 BIGIP 具有以下优秀的安全特性，对系统进行保护： ? ? ? ? ? ? ? ? ? ? 访问控制列表 IP 包过滤加密（SSL）的管理信息传递口令保护拒绝“DoS”攻击免疫“Ping of Death”攻击不用 Ack 缓冲应答未确认的 SYN，防止 SYN 风暴通过对无效连接的管理来防止使用没有开放的服务进行攻击源路由检查，防止 IP 欺骗 NA T/SNAT。通过设置，BIGIP?可以将一个端口映射到多个端口上。许多知名的端口是，如 80，443，20，21 可以被映射到服务器上的任何一个端口上。此外，BIGIP?可以将位于它后面的服务器的地址翻译为那些对外公布的地址。这个安全特性为网络带来了以下几种好处：入侵者无法确定哪些服务运行在哪些端口上，因而增加了攻击的难度；使用非公开的路由地址、BIGIP?可以节省客户的 IP 地址，降低客户的成本；可以隐藏 BIGIP?背后的服务器地址，避免这些服务器暴露到外部世界，从而减少了黑客攻击这些服务器的机会 ? 利用虚拟 IP 地址隐藏服务器实际地址。同时，在 BIGIP? BIGIP?的安全管理报告中通过监视下列参数，BIGIP? BIGIP? 可以在安全报 BIGIP? 告中列出那些服务和端口受到了非法的访问尝试： ? ? ? IP 地址：攻击者的源 IP 地址频率：攻击者尝试攻击的数量端口：哪个端口受到攻击这些信息可以帮助管理员发现他们网络中存在的安全漏洞，并且可以判定哪些人是潜在的攻击者。

2.2.7“容灾” “容灾” 数据中心的冗余设置常被用来提供数据中心的“容灾” BIGIP 与 3DNS 的结合，。可以灵活的提供“容灾”保障。 BIGIP 可以通过设置“备份中心” 保证在主数据中心负载过重或发生故障，无法，正常提供服务时，自动启用“备份中心” 继续为客户提供服务。， 3DNS 可以帮助客户在系统寻找过程中，智能地找寻到合适的数据中心。并且 3DNS 还可以动态监测数据中心的状态，一旦主数据中心发生故障，无法正常提供服务，3DNS 可以自动将流量立即传送到备份“备份中心” 。 BIGIP 与 3DNS 的结合应用，可以保证在局域和广域连接中为系统提供灵活的 “容灾”策略。

2.2.8 网络感知应用，应用控制网络网络感知应用，以下图为例，应用 web 服务器或中间件服务器会定制完成与后台服务器进行数据记录的备份。这时，这台服务器会集中于备份数据，而影响正常的客户服务。若此时的客户请求再转向它，势必会对客户服务带来影响，如响应延迟太大，或服务中断。但是，F5 利用“iControl”技术可以帮助服务器通知网络， “此时忙，暂停服务” 然，后，网络将停止再向它转发客户请求，而将客户请求继续转发至其它服务器，继续对客户应用请求提供服务。并且，服务器会同时通知 3DNS，这个中心可用服务器数量减少一台，应相应减少对这个中心的客户服务请求量。当这台服务器完成所有数据记录的备份后，服务器又会通知 BIGIP 和 3DNS，此时它已恢复正常，可以提供服务。这时，系统又恢复原有的正常状态。在系统的运行过程中，各种各样的变化是不可避免的，靠人工的方法毕竟不是一个灵活的、智能的方式。 “iControl”可帮助系统成为一个“自适应”的系统，使“网络真正感知应用，应用控制网络” 。另外，利用 BIGIP、3DNS 和 iControl,还可以帮助系统提供增值应用：配置灵活。BIGIP 的放置非常灵活，即可放置在服务器群与网络的中间，也可与服务器群以平行的方式接入网络。 BIGIP 可根据服务器的运行状态，如“CPU 性能” “内存利用率” “磁盘空间利用率” 、、等服务器软、硬件状态，自动调整流量的分配。 BIGIP 的高可靠性连接，提高了系统的可靠度。BIGIP 之间可互相备份，并且，提供“客户连接状态”的备份，提供“冗余”操作。它们可工作与两种状态： Acti ve/Standby Active/Active 可基于所有 TCP/IP 协议进行流量分发、管理和控制。可对所有基于 IP 的设备提供流量的分发、管理和控制，包括防火墙、路由器、 VPN 路由器等网络设备。 Npath?性能。BIGIP?包括称作 nPath 的可选模式。该模式允许服务器绕过 BIG IP?直接将信息返回给客户。例如，涉及下载流式媒体的企业可以选择采用该功能。 BIGIP?仅对用户的请求（即进入的流量）进行管理。 SSL 加速加密套接字(Secure Socket)层交易的广泛采用和总体网络负载减缓了服务器的执行速度。SSL Gateway 为 SSL 交易加速。 3DNS?和 BIGIP?结合提供 14 种的全球流量分配策略：轮询算法比率最少连接数随机用户定义的服务质量往返时间（RTT）完成率（数据包丢失） BIG-IP 吞吐量（PPS）全球可用性 HOPS 分布式拓扑访问控制 LDNS 轮询算法动态比率

三．相关技术资料

BIG99.999%的正常运行 BIG-IP 提供支持 99.999%的正常运行 99.999%高可用性高可用性服务器系统的可用性指标可以用两个参数进行简单的描述：平均无故障工作时间（MTBF），和平均修复时间（MTBR）。系统的可用性可用下式表示：系统可用性＝ MTBF/(MTBF＋MTBR) 也就是说，如果系统的可用性达到 99.9%，则每年的停止服务时间将达 8.8 小时，而当系统的可用性达到 99.99%时，年停止服务时间是 53 分钟，当可用性达到 99.999%时，每年的停止服务时间只有 5 分钟。对于网络时代的企业任何服务停止带来的损失都是巨大的，据国外权威机构对 400 家企业的调查，普通企业一次关键应用的停机平均损失达每小时 1 万美元，而对于一些金融企业每小时的停机损失竟达到 100 万美元。调查发现，造成系统停止服务的主要原因有三个：其一，硬件故障，在整个停机原因中占 30%，其二，操作系统和应用软件故障，占 35%，其三是由于操作失误，程序错误和环境故障，占 35 %。可以看到，要提高系统的可用性必须从硬件和软件两个方面入手，对于硬件产品而言，运行的时间越长越易出故障，提高硬件系统的可用性必须要在故障出现时能够保证系统继续服务。硬件冗余技术可以很好的解决这一问题，通过对关键部件的冗余设计可以做到当系统中出现故障硬件时由冗余部件自动接替服务，不致造成系统停机。而对于软件系统而言，故障的产生难以进行有效的预测，通过快速地恢复软件系统降低平均平均修复时间（MTBR）也可以达到提高可用性的目的。服务器系统的电子部件和机械部件之间存在着可靠性的差异。电子电路的可靠性根据其工作状态不同也存在一定的差异，通常工作在高压大电流情况下的部件可靠性较低，而工作在低压小电流状态的部件可靠性较高，工作温度较高的部件可靠性低，工作温度较低的部件可靠性高。通过分析可以看到，提高 MTBF 值和降低 MTBR 值对系统可用性设计具有相同的意义。

四．服务与培训

F5 专业服务条款

产品技术支持与公司专业服务包含以下几个方面：产品质量保证；产品现场安装服务；维护服务；培训与技术咨询等四类服务产品。有效期限内提供免费维修！

技术支持中心延续服务的方法：客户在其购买的服务到期之后，可以通过 F5 认证的代理商购买延续服务，F5 公司延续服务均以一年服务期为基本单位，价格可以参阅我们的报价表。并在服务有效期内继续由 F5 公司或指定的代理商提供技术支持与服务。

培训第一天相关网络基础培训 OSI L1~L7/TCP/VLAN/tagged VLAN BIG I P 基本/产品介绍启动初始配置 + 实验负载均衡和 Server Pool 讨论，售前相关文件介绍第二天 Routing/STP/WCCP/Cache/DNS 健康检查方法 +实验负载均衡算法+ 实验会话保持/ UIE+I-rules +实验讨论，安装调试文档介绍第三天相关应用基础培训 CS / BS/Web Logic/DB HA/LB NAT / SNAT +实验 https proxy +实验 IDS LB +实验（随机）第四天常用软件命令介绍 n-Path/ FW LB +实验 Redundant BIGIP/ 全冗余连接+实验第五天 3DNS 功能介绍，标准 IDC 容灾处理+实验 CDN 介绍，配置方法+实验 Link Controller 介绍，实验讨论话题：HA/Cluster/L4 load balance/A TM 对比