Si alguno lleva leyendo esta newsletter desde el principio sabrá que una de mis pasiones, y temas recurrentes, es la astrofísica y las misiones espaciales. No lo puedo evitar, y además me que ayuda a la divulgación. Por un lado, me conmueve la curiosidad de saber si estamos sólos, y si la humanidad llegará algún día a conquistar y colonizar otros mundos, o lunas, en la inmensidad inconcebible de nuestro universo. Pero por otro lado, como ingeniero —y astrofísico en progreso—, me parece impresionante cómo los ingenieros espaciales construyen algo que tiene que funcionar perfectamente en las condiciones más extremas, en algunos casos desconocidas, y tener una tolerancia a fallos cercana a cero — porque nadie va a ir a Marte a arreglar un rover al que se le ha soltado un manguito.
El pasado 13 de junio de 2021 uno de los ordenadores (payload computer) a bordo del telescopio espacial Hubble se paró debido a lo que parece fue un problema con un módulo de memoria. El equipo de operaciones en la Tierra consiguió reiniciar este ordenador a través del ordenador principal del telescopio, pero al poco tiempo volvió a fallar con el mismo problema. Durante las siguientes semanas se llevaron a cabo distintas estrategias para intentar reparar el telescopio, que lleva en servicio casi continuo desde el año 1990. El ordenador principal no conseguía reactivar los sistemas de respaldo del ordenador afectado. Finalmente, el 16 de julio de 2021, consiguieron activar y cambiar al hardware de respaldo. Habían tenido incluso que llamar a ingenieros ya jubilados que participaron en la construcción del telescopio. A día de hoy, 31 años después, el maravilloso telescopio espacial Hubble sigue operativo gracias a los distintos sistemas de respaldo con los que cuenta.
Como curiosidad, el telescopio espacial Hubble se puso en servicio en 1990 y era miope. Un problema en las lentes provocaba una aberración en las imágenes. Hubo que enviar en 1993 a un par de astronautas a ponerle una lente para contrarrestar el efecto de la aberración. ¡Y menos mal! Porque las imágenes que nos ha dado el telescopio Hubble estos últimos 30 años han sido impresionantes.
En ingeniería, uno de nuestros lemas es si hay algo que puede fallar, fallará. Design for failure es una práctica cada vez más extendida en nuestro sector. Everything fails all the time, que diría el Werner Vogels, CTO de Amazon. Tenemos la obligación de diseñar y construir los servicios dando por hecho que van a fallar en algún momento. Esto implica añadir sistemas redundantes y procesos para la recuperación del servicio, aumentando inevitablemente el coste del proyecto en consecuencia. Son muchas las empresas que no pueden tolerar estos sobrecostes, y terminan asumiendo potenciales pérdidas en caso de que los sistemas fallen. Otras empresas, simplemente, no se lo pueden permitir, como es el caso de las misiones espaciales. De hecho, muchas de estas misiones se proyectan para dan un servicio de unos pocos de meses y terminan funcionando perfectamente durante varios años, como en el caso de los rovers en Marte, debido a lo robustos que resultan ser sus sistemas. ¿Son los ingenieros de las misiones espaciales mejores que los que trabajamos en sistemas de información? Que va. Es solo una cuestión de presupuesto y tiempo, lo que les permiten añadir redundancia y realizar pruebas de fallos una y otra vez.
Los sistemas de respaldo puede que no se utilicen nunca en la vida útil del servicio, pero no por ello tienen que ser menos importantes y hay que prestarles menos atención. Los sistemas de respaldo son como el seguro de tus servicios. Puedes o no necesitarlos. Puedes escatimar en determinados aspectos, según la naturaleza del negocio. ¿Puede tu negocio tolerar una caída de una hora? ¿De un día? ¿De una semana? Pero nunca se debe prescindir de ellos. Siempre hay que tener un plan para restablecer el servicio, sea cual sea la naturaleza del fallo.
¡Muchas gracias por leerme!