Data Storage: La base de la Computación Centrada en Datos

La aparición y evolución de las computadoras y tecnologías de comunicación, originó una nueva revolución económica-social en todo el mundo conocida como era digital. La masificación de nuevos modelos de negocio por Internet y el incremento exponencial de la información originada por distintos dispositivos electrónicos conectados a Internet convirtió la computación convencional en una nueva computación centrada en los datos.

El almacenamiento de datos (Data Storage) ha evolucionado más en los últimos 10 años que en los 25 anteriores. La necesidad de almacenar más información desencadena el desarrollo de nuevas tecnologías que giran alrededor del Data Storage, para mejorar el diseño y administración de los centros de datos (Data Centers) de las organizaciones.

Evolución del hardware de almacenamiento

Sistema de almacenamiento en disco IBM 350 con capacidad de 3.75MB en 1956

La evolución de los dispositivos físicos de almacenamiento han hecho posible que hoy en día, podamos hablar de exorbitantes unidades para almacenar información. Hemos pasado de utilizar tarjetas perforadas, cintas magnéticas y discos magnéticos rígidos con capacidades limitadas de almacenamiento a un modelo de almacenamiento escalable capaz de almacenar cientos de petabytes en servidores automatizados utilizando dispositivos SSD PCIe ó Discos de Estado Sólido con carriles de transmisión PCIe ó Peripheral Component Interconnect Express.

Disco Duro (HDD) vs Disco Estado Sólido (SSD)

El Internet y el Data Storage

El principal motivo de por qué necesitamos nuevas soluciones de Data Storage se debe al exponencial crecimiento de los datos de un mundo cada vez más conectado.

La evolución de Internet y de las redes de telecomunicaciones han hecho posible la aparición de nuevos modelos de negocio que generan y consumen un alto volumen de información, los sistemas de IoT, redes sociales y las plataformas de vídeo streaming son solo algunos de los servicios que solicitan los nuevos consumidores digitales.

Según las estadísticas de We Are Social, en abril del 2019 aproximadamente más del 50% de la población mundial utiliza Internet.

Estadística de usuarios de internet en Abril 2019. Fuente: We are Social

En el ámbito empresarial, se observa un mayor volumen de recopilación, procesamiento y análisis de datos generados en sus distintos procesos productivos y canales de atención. Las organizaciones buscan ser cada vez más eficientes y competitivas, por lo tanto, la necesidad de comprender el comportamiento de sus clientes, la efectividad de sus campañas, el diseño de productos, entre otras cosas, generan abundante información que deben ser analizadas para entender y predecir donde están sus mercados y hacia donde van.

La transferencia y procesamiento de datos, inteligencia artificial y aprendizaje automático (Machine Learning), IoT y más tecnologías impulsarán el almacenamiento de información de las organizaciones, en el rango de exabytes durante la próxima década.

Las organizaciones que aprovechen las oportunidades del Big Data y el Análisis Predictivo prosperarán, los otros desaparecerán en el camino.

Administración de Data Storage

Hace más de veinte años, los grandes centros de almacenamiento eran la pesadilla de los administradores de bases de datos. Las aplicaciones pasaron a ejecutarse en el sistema operativo del servidor, utilizando los dispositivos de almacenamiento del mismo. Las actualizaciones significaban nuevo hardware costoso y migraciones de información arriesgadas.

Tecnologías como la virtualización del sistema operativo, despliegues automáticos de containers, Cloud Gateway, Cloud Integrations y las arquitecturas Scale-Out de las aplicaciones pueden lograr que pasemos mucho tiempo esperando entrar en un Data Center y tocar nuestros datos almacenados.

Servidores Big Memory

Grandes compañías de tecnología como Intel, están apostando fuertemente en la fabricación de nuevas memorias de almacenamiento. La NVRAM ó Non-Volatile Random Access Memory, Memoria de Acceso Aleatorio No Volátil, es un dispositivo de almacenamiento de acceso aleatorio capaz de conservar información aún cuando se corta la energía.

La NVRAM se encuentra en el bus de memoria del servidor, por lo tanto, es mucho más rápida que los discos SSD (Discos de Estado Sólido). Pero a diferencia de los SSD, se puede acceder a la NVRAM por sectores de almacenamiento 4K. Esta característica permite incrementar el rendimiento de las aplicaciones de software que se ejecutan sobre el servidor.

La NVRAM es utilizada en servidores que almacenan grandes volúmenes de memoria. Por citar un ejemplo podemos mencionar que los últimos servidores Xeon SP (con tecnología Skylake) pueden admitir hasta 1.5 TB de memoria por procesador.

Un servidor Xeon SP dual-socket puede admitir 3 TB de memoria, y ejecutar grandes bases de datos en la memoria, lo que mejora dramáticamente el rendimiento.

Intel no es el único competidor en los dispositivos NVRAM. Se espera que Nantero comience a distribuir DIMM NVRAM el próximo año 2020, empleando una tecnología que es incluso más rápida que Optane de Intel.

Almacenamiento Escalable

El almacenamiento escalable es una arquitectura de almacenamiento conectado a la red (NAS – Network Attached Storage) que tiene la capacidad de ampliar la cantidad total de espacio en disco mediante la adición de dispositivos de almacenamiento en una colección de servidores conectados con sus propios recursos.

Todos los proveedores cloud utilizan almacenamiento altamente escalable para almacenar exabytes de datos. Esa tecnología se está abriendo camino en las organizaciones, tanto en hardware (Nutanix) como en software (Quobyte), entre otros.

Los data centers privados pueden crear infraestructuras que son competitivas en costos con los proveedores de la nube, y ofrecen menor latencia y más control. La clave es comprender cuáles son sus requisitos de carga de trabajo base y delegar el uso de la nube a cargas de trabajo transitorias o de pico.

Almacenamiento Altamemte Resistente

Tecnología de codificación de borrado en un sistema de almacenamiento

La tecnología de codificación de borrado se ha utilizado durante décadas para aumentar la densidad de datos en las unidades de disco.

La codificación de borrado (Erasure Coding), es un método de protección de datos, en la cual los datos se dividen en fragmentos, se expanden y se codifican con piezas de datos redundantes, y se almacenan en una red de servidores en diferentes lugares, tales como discos, nodos de almacenamiento e incluso en diferentes ubicaciones geográficas.

Pero la tecnología codificación de borrado avanzado permiten a los usuarios marcar el nivel de protección de datos y seguridad que desean, con gastos muy bajos.

Procesadores neuronales

Si su organización planea desarrollar proyectos de machine learning (aprendizaje automático) de una manera significativa, deberá familiarizarse con los procesadores neuronales. Los procesadores neuronales son unidades de procesamiento lógico-aritmético masivamente paralelas optimizadas para las matemáticas que requieren los modelos de machine learning.

Los procesadores neuronales son cada vez más comunes. Hay uno en el Apple Watch, y muchos proveedores cloud han creado sus propios diseños. El acelerador TensorFlow de Google, por ejemplo, es capaz de realizar 90 billones de operaciones por segundo. De seguro que tendremos versiones mucho más rápidas en un futuro próximo.

Entonces, ¿qué demandan los procesadores neuronales del almacenamiento? La respuesta es “Ancho de banda“.

En aplicaciones real-time, como la robótica, vehículos autónomos y seguridad en línea, el procesador neuronal debe recibir los datos apropiados lo más rápido posible, por lo que el ancho de banda es importante.

Rack Scale Design

El Rack Scale Design (RSD) es un concepto que Intel ha estado promoviendo durante años. RSD es una arquitectura lógica que desagrega y agrupa los recursos de cómputo, almacenamiento y red de una manera más eficiente. Está basado en el estándar Redfish de DMTF, conjunto de buenas prácticas para la administración moderna de hardware de plataformas escalables de los centros de datos. En el siguiente vídeo, se comparte mayor información al respecto .

Intel® Rack Scale Design. Youtube

Procesamiento basado en almacenamiento

Con el rápido crecimiento de los volúmenes de datos en los data centers, es cada vez más difícil mover los datos a los procesadores. Por ello, la tendencia es que el procesamiento se mueva hacia el almacenamiento.

Hay dos ideas diferentes bajo la rúbrica del concepto de intelligent storage ó almacenamiento inteligente. Mediante el procesamiento previo y la reducción de datos, tal vez utilizando el machine learning, se puede reducir los requisitos de ancho de banda a los data centers. En aplicaciones de big data, compartir una pool de almacenamiento y/o memoria permite que tantos procesadores como sea necesario compartan los datos necesarios para lograr el rendimiento requerido. Estos conceptos están actualmente etiquetados como intelligent storage ó almacenamiento inteligente por HPE, Dell / EMC y NGD Systems.

Por ejemplo, imagínese tener un rack de petabytes de memoria no volátil, conectado a otro rack con docenas de potentes CPU. Con la sincronización adecuada, miles de máquinas virtuales podrían operar en un grupo masivo de fuentes de datos, sin necesidad de mover cientos de terabytes a través de la red.

Con la llegada de los procesadores neuronales cada vez más rápidos y baratos, el intelligent storage podría adecuarse para que se autogestione en gran medida.

Unidades de disco de alta capacidad

Las unidades físicas de disco están disfrutando de un renacimiento tecnológico. Las unidades más recientes tienen capacidades de hasta 16 TB, y en los próximos cinco años, ese número casi se duplicará. Los discos seguirán siendo el almacenamiento de acceso aleatorio de menor costo en los próximos años. Las tecnologías que impulsan los HDD son:

Helio
El helio reduce la resistencia aerodinámica y la turbulencia, lo que permite a los proveedores agregar más platos (platters) en la unidad, al tiempo que reduce la potencia y el calor. Popular en los centros de datos en la nube.

HAMR
Heat-Assisted Magnetic Recording (HAMR) ó “Grabación Magnética Asistida por Calor”, es una tecnología de almacenamiento magnético para aumentar en gran medida la cantidad de datos que se puede almacenar en un dispositivo magnético. Usando láseres o microondas, una pequeña sección de un disco se calienta a 400 grados celsius antes de escribir. Cuando el disco esta frío, el medio es mucho más resistente a los giros de broca. En términos técnicos, el calor permite el uso de material magnético de alta coercitividad, lo que permite una mayor densidad de datos.

Grabación magnética escalonada (Shingled Magnetic Recording)
Las cabeceras de (I/O) lectura / escritura establecen una pista de escritura mucho más amplia que la que necesita la cabecera de lectura. Al reducir la distancia entre las pistas, las pistas de escritura se superponen como tejas, lo que permite densidades de datos mucho más altas. Las unidades SMR son óptimas para archivos.

Conclusiones

La era de la computación centrada en datos está aquí. Con más de 4.500 millones de computadoras en uso, la mayoría de ellas móviles, y el crecimiento de IoT aún en el futuro, la tecnología y el gobierno de datos serán una prioridad por razones económicas y legales.

Los datos son cada vez más un arma competitiva en las organizaciones, si son almacenados adecuadamente, e incluso los datos antiguos pueden ofrecer mucho valor al negocio. Afortunadamente, el almacenamiento de datos es más rentable que nunca, tiene una tendencia que continuará en el futuro previsible.