Revista Ciencia y Desarrollo, Tecnoinformación

Editorial

Ciencia en México

Ciencia en el mundo

La ciencia y sus rivales

Tecnoinformación

Entrevista

Centros Conacyt

Testigos de una historia

El lector científico

Productos de la ciencia

Reseñas

FERNANDO BARAJAS*

Almacenes distribuidos de información: presente y futuro*

Un sistema puede elevar enormemente sus costos si implica alta redundancia, reparte información entre pocos dispositivos y genera alta disponibilidad, pero los beneficios también varían. De ahí la importancia del cálculo estricto.

En la actual era digital, en toda actividad humana generamos y compartimos información de manera incesante. No es extraño, entonces, que la práctica de guardar toda nuestra información en un solo dispositivo pronto sea algo obsoleto; es más, si en lugar de pensar en individuos, consideramos que las organizaciones, por su propia naturaleza, generan una mayor cantidad de información, el hábito de guardarlo todo en varias computadoras tampoco es una experiencia que en el futuro próximo siga siendo eficaz.

Bajo este escenario, aparecen los Sistemas de Almacenamiento Distribuido (SAD), los cuales basan su funcionamiento en técnicas que reparten los archivos entre diversos dispositivos conectados a la red. En otras palabras, se trata de guardar y clasificar lo que generamos, no en un solo almacén, sino en toda una red de ellos: computadoras, servidores o memorias virtuales en línea. Estos sistemas están articulados de tal manera que la recuperación se realiza de manera inmediata y desde cualquier terminal de red, es decir, no es necesario indagar en cada dispositivo de almacenamiento para encontrar algo, sino que el sistema crea mapas de acceso que nos conducen con precisión a lo que buscamos.

La opción suena atractiva, sin duda, no obstante, para que un SAD sea funcional, se necesita más que un simple reparto, pues debe calcularse detenidamente los costos y los beneficios de acuerdo con la naturaleza de la organización que lo requiere y la información que maneja.

Existen algunos parámetros que deben ser considerados para hacer un buen cálculo al respecto. La redundancia ayuda a tolerar fallas porque crea un exceso de información que luego se distribuye en diversos lugares. Cuando creamos varias copias de un mismo archivo, por ejemplo, estamos generando información redundante. Sin embargo, existen otros mecanismos llamados códigos detectores y correctores de error, que son formas alternativas y más eficientes que la redundancia. Si ocurre una falla en un dispositivo de almacenamiento, estos mecanismos nos garantizan que existe información en otros dispositivos, a partir de la cual podemos recuperar el archivo que buscamos. Bajo este criterio, los beneficios pueden ser altos, pero los costos aumentan.

Por otra parte, el balance de carga se refiere a la cantidad de información almacenada en un solo dispositivo. Hay dos maneras de definirlo: por principio de equidad o de justicia. En el primer caso, se asigna idealmente el mismo volumen de información a cada dispositivo; en el segundo, se reparte proporcionalmente de acuerdo con la capacidad de cada uno. La disponibilidad alude a la posibilidad y a la velocidad a la que se puede acceder a los archivos; es también una manera de medir la satisfacción de los usuarios.

Finalmente, un sistema puede elevar enormemente sus costos si implica alta redundancia, reparte información entre pocos dispositivos y genera alta disponibilidad, pero los beneficios también varían. De ahí la importancia del cálculo estricto.

En la situación actual de las necesidades de almacenamiento, por un lado las organizaciones requieren compartir información más eficientemente, por el otro, los equipos de trabajo deben participar de esa información considerando que ésta cambia a lo largo del tiempo.

Así pues, al planear un SAD es necesario no sólo tomar en cuenta los sistemas que estarán interconectados, sino la manera como se conectarán. Nuestra propuesta arquitectónica puede entenderse en dos niveles:

» Local, en el cual el almacenamiento se basa en una celda que consiste en una red dedicada, esto es, hecha con recursos fijos, de bajo costo, entre los que se incluye un servidor. Al mismo tiempo pueden sumarse elementos cambiantes, que contribuyen con sus capacidades de almacenamiento en ciertos horarios del día.
» Siguiente nivel, el servidor de cada celda participa en una segunda organización, en la que las celdas se articulan para intercambiar sus capacidades de almacenamiento y soportar un servicio de acopio remoto. Podemos entender este segundo nivel como una red P2P, pero estructurada por los servidores de las celdas individuales.

La idea es que el almacenamiento local nos sirve, efectivamente, como una caché donde tenemos a la mano la información del día a día. Sin embargo, el almacenamiento remoto nos permite hacer frente a los posibles desastres que puedan presentarse en el sitio donde se genera la información. Imaginemos un archivo muy importante que utilizo diariamente y, por ello, lo guardo en una celda local en mi oficina, o cercana a mi oficina. Al mismo tiempo, podría almacenar este archivo en una celda remota, de manera que si ocurriera un desastre en la oficina, la información podría recuperarse aun cuando la celda local quedara fuera de servicio.

Después de todo, si algo tenemos que aprender de los SAD es que sus necesidades cambian y crecen. De ahí que sea indispensable tratar de anticipar los requerimientos futuros y planear sistemas capaces de asimilar el cambio y el crecimiento.

No obstante, no podemos calcular el final de las necesidades de información; ningún almacén es infinito. Si queremos continuar con el desarrollo de nuestro mundo virtual, anticipar las necesidades y pensar en diseños que las sustenten son acciones indispensables. Igualmente, para hacer frente a las necesidades inmediatas relacionadas con la generación y uso de la información, los SAD tendrán que soportar mecanismos de almacenamiento y recuperación de contenidos de tipo semántico, pues lo que nos interesa no es recuperar la información por un nombre de archivo, sino con base en sus contenidos y significados. Finalmente, entre los impulsores de los SAD se encuentran grandes proveedores de servicios en la nube, como Google o Amazon, que los utilizan como una de sus estrategias para afrontar el crecimiento exponencial de la información digital.