Introducción a la fiabilidad
Conversando con algunos clientes, por lo general "repiten lo que les dicen" algunos consultores de informática, sin saber exactamente de que se trata, como el concepto de Alta Disponibilidad. Dejando de centrarse en que tipo de servicio se esté ejecutando en un sistema informático, este sistema deberá ser fiable para que los usuarios puedan utilizarlo en condiciones óptimas. El término "fiabilidad" indica cuán fiable es un sistema informático.
Una falla se produce cuando un servicio no funciona correctamente, es decir que se genera un estado de funcionamiento anormal o que no se adecua a las especificaciones. Desde el punto de vista del usuario, un servicio tiene dos estados:
- servicio apropiado: cuando satisface las expectativas.
- servicio inapropiado: cuando no satisface las expectativas.
Una falla es atribuible a un error, es decir, a un funcionamiento incorrecto local. Pero no todos los errores conducen a una falla en el servicio.
Existen varias maneras de limitar las fallas en el servicio:
- La prevención de errores, que consiste en evitar errores anticipándolos.
- La tolerancia a errores, cuyo propósito es proporcionar un servicio de acuerdo con las especificaciones a pesar de los errores, presentando redundancias.
- La eliminación de errores, destinada a reducir la cantidad de errores por medio de acciones correctivas.
- La predicción de errores, anticipando errores y su posible impacto en el servicio.
Introducción a la alta disponibilidad
"La alta disponibilidad" consiste en una serie de medidas tendientes a garantizar la disponibilidad del servicio, es decir, asegurar que el servicio funcione durante las veinticuatro horas.
El término "disponibilidad" hace referencia a la probabilidad de que un servicio funcione adecuadamente en cualquier momento.
El término "fiabilidad", que se utiliza en algunos casos, se refiere a la probabilidad de que un sistema funcione normalmente durante un período de tiempo dado. Esto se denomina "continuidad del servicio".
La disponibilidad se expresa con mayor frecuencia a través del índice de disponibilidad (un porcentaje) que se mide dividiendo el tiempo durante el cual el servicio está disponible por el tiempo total. La disponibilidad se expresa con mayor frecuencia a través del índice de disponibilidad (un porcentaje) que se mide dividiendo el tiempo durante el cual el servicio está disponible por el tiempo total.
Índice de disponibilidad | Duración del tiempo de inactividad |
97% |
11 días |
98% |
7 días |
99% |
3 días y 15 horas |
99,9% |
8 horas y 48 minutos |
99,99% |
53 minutos |
99,999% |
5 minutos |
99,9999% |
32 segundos |
Evaluación de riesgos
En efecto, la falla de un sistema informático puede producir pérdidas en la productividad y de dinero, y en algunos casos críticos, hasta pérdidas materiales y humanas. Por esta razón es necesario evaluar los riesgos ligados al funcionamiento incorrecto (falla) de uno de los componentes de un sistema informático y anticipar los medios y medidas para evitar incidentes o para restablecer el servicio en un tiempo aceptable.
Como es sabido, un sistema informático de redes puede fallar de muchas formas. Las causas de las fallas pueden clasificarse de la siguiente manera:
- Causas físicas (de origen natural o delictivo)
- Desastres naturales (inundaciones, terremotos, incendios)
- Ambiente (condiciones climáticas adversas, humedad, temperatura)
- Fallas materiales
- Fallas de la red
- Cortes de energía
- Causas humanas (intencionales o accidentales):
- Error de diseño (errores de software, aprovisionamiento de red insuficiente)
- Causas humanas (intencionales o accidentales):
- Error de diseño (errores de software, aprovisionamiento de red insuficiente)
- Causas operativas (vinculadas al estado del sistema en un momento dado):
- Errores de software
- Falla del software
Todos estos riesgos pueden tener diferentes causas, entre las que se cuentan:
Tolerancia a errores
Dado que las fallas no se pueden evitar por completo, existe una solución que consiste en configurar mecanismos de redundancia duplicando los recursos críticos.
La capacidad de un sistema para funcionar a pesar de que alguno de sus componentes falle se conoce como tolerancia a errores.
Cuando uno de los recursos falla, los otros recursos siguen funcionando mientras los administradores del sistema buscan una solución al problema. Esto se llama "Servicio de protección contra fallas" (FOS).
Idealmente, si se produce una falla material, los elementos del material defectuoso deben ser intercambiables en caliente, es decir, capaces ser extraídos y reemplazados sin que se interrumpa el servicio.
Copia de seguridad
La configuración de una arquitectura redundante asegura la disponibilidad de los datos del sistema pero no los protege de los errores cometidos por los usuarios ni de desastres naturales, tales como incendios, inundaciones o incluso terremotos.
Por lo tanto, es necesario prever mecanismos de copia de seguridad (lo ideal es que sean remotos) para garantizar la continuidad de los datos.
Además, un mecanismo de copia de seguridad también se puede utilizar para almacenar archivos, es decir, para guardar datos en un estado que corresponda a una cierta fecha.
|