8.5K
Todo lo que interactuamos y en lo que trabajamos crea datos en el mundo digital. Cualesquiera que sean las interacciones que hagamos en el mundo de la informática, dejarán datos como huella. Todos los archivos, imágenes, archivos de audio/vídeo que vemos y utilizamos diariamente no son más que datos. Al final del día, nos quedamos afuera con poco “brillo” en los datos a los que estamos expuestos. Ahora estamos en la era cumbre del acceso a datos. Sería una mejor idea comprender los conceptos y tecnologías de almacenamiento de datos.
Obviamente, todos estos datos estarán en forma de 1 y 0, que no son más que datos binarios. Estos datos deben almacenarse en algún lugar y de alguna forma para acceder a ellos más tarde. Estos datos podrían ser necesarios para procesarlos o para obtener información más adelante.
El almacenamiento de datos es muy importante y ha llevado al desarrollo de muchas tecnologías. A finales de la década de 1970 y principios de la de 1980, surgieron nuevas tecnologías en el almacenamiento y durante este período se produjeron muchos avances.
Conceptos de almacenamiento
Los datos se pueden almacenar en muchos formatos en cualquier hardware de computadora. Esto depende completamente de la aplicación que crea estos datos. A continuación se detallan algunos de los formatos de almacenamiento de datos y mecanismos de acceso más conocidos.
Almacenamiento de disco
Muchas de las operaciones de disco, como "lectura" y "escritura", implican almacenamiento en disco.
El almacenamiento en disco es uno de los mecanismos más utilizados en la actualidad. En el almacenamiento en disco, también han evolucionado muchos tipos y métodos a lo largo de un período.
- Almacenamiento en bloque:Los datos se almacenan en "bloques lógicos", estos bloques son unidades de almacenamiento más pequeñas con direcciones adjuntas en cualquier subsistema de almacenamiento. Las operaciones de lectura/escritura a nivel de disco se pueden utilizar para el almacenamiento en bloque y el acceso al almacenamiento en bloque.
- Almacenamiento de archivos:Cualquier archivo de datos no es más que una colección de "bloques de bloques" de datos. Cualquier archivo normalmente contendrá dos partes:
- Metadatosde un archivo que almacena la estructura del directorio y la información sobre el archivo.
- Contenido del archivoque contiene la parte del contenido real del archivo de los datos. El almacenamiento de archivos conduce aSistemas de archivos, que tendrá directorios, archivos, archivos normales y etc. metadatos relacionados con archivos en su interior. Estos sistemas de archivos están organizados lógicamente para facilitar el acceso y la operación de datos.
Almacenamiento de bases de datos
El almacenamiento de base de datos es almacenamiento de datos para un acceso más rápido con o sin relación de datos. El almacenamiento de base de datos se realiza a nivel de software de almacenamiento de datos e implicará almacenamiento de datos basado en SQL o No-SQL con mecanismos de clave primaria y clave secundaria. Estas bases de datos serán de tipo relacional y no relacional. El alcance de este artículo no cubrirá estos conceptos.
Almacenamiento secundario
Esto implica principalmente el tipo de almacenamiento en disco duro. Como se explicó anteriormente, durante los últimos 20 años aproximadamente, el almacenamiento estuvo rondandoDASD(DdirectoAadjuntoSalmacenamientoDdispositivo) oJBOD(jnosotrosBunchohFDisks) tipos de mecanismos de almacenamiento primario. DASD y JBOD se utilizaron solo para operaciones de lectura y escritura en discos. Se trata simplemente de una colección de discos sin la participación de la gestión de datos o la inteligencia utilizada.
- Disco:El disco es una de las unidades de almacenamiento utilizadas para el almacenamiento de datos.
Almacenamiento primario
También se conoce como mecanismo de almacenamiento principal que involucra principalmente la memoria de acceso aleatorio.
- RAM
- ROM
- EEPROM
Tecnologías de almacenamiento
1. RAID (matriz redundante de discos independientes)
La tecnología RAID se desarrolló teniendo en cuenta la necesidad de realizar copias de seguridad, un acceso a los datos más rápido y datos sin errores con funciones de disponibilidad. RAID se desarrolló utilizando la combinación de múltiples unidades de disco duro independientes en una sola unidad lógica. El sistema operativo subyacente ve todo esto como un solo HDD (disco duro). RAID también proporcionaTolerancia a fallos.
RAID tiene múltiples características y técnicas que se desarrollaron durante un período. Estos han sido desarrollados en base al respaldo, recuperación y distribución de datos en el disco duro. He explicado algunas de las características requeridas y conocidas a continuación.
- Política de lectura y escritura:Políticas normales de lectura y lectura anticipada con escritura directa y reescritura.
- Verificación de coherencia:Esta operación ayuda a verificar la exactitud de los datos en las unidades virtuales que utilizan los niveles RAID 1, 5, 6, 10, 50, 60 y excepto RAID 0.
- Disco de repuesto activo:Esta es una unidad de reserva, que está en estado inactivo; el estado encendido se puede usar inmediatamente en caso de falla de alguna unidad en el grupo RAID. Este disco generalmente no tendrá datos de usuario.
- Nivel de RAID:Para ofrecer una mayor disponibilidad de datos, rendimiento y redundancia de los datos almacenados, se aplica un conjunto de técnicas a grupos de discos.
Tipos de incursión
RAID también se clasifica comoRAID de softwareyRAID de hardware.
RAID de software:
- Los cálculos RAID los maneja el sistema operativo subyacente o la CPU del sistema.
- Respuesta lenta y baja velocidad debido a la sobrecarga de los cálculos.
- Muchos arranques de sistemas operativos fallarán o tendrán dificultades para arrancar debido a fallas en el espejo del sistema o debido a algunas fallas de software.
- No es inmune a los ataques de virus.
RAID de hardware:
- La tarjeta se encargará de los cálculos RAID.
- Velocidad mejorada ya que solo se realizan operaciones XOR.
- La recuperación de una falla del disco es fácil.
- Inmune a los ataques de virus.
Niveles de RAID
Durante un período, variosNiveles de RAIDSe han desarrollado y algunos de los populares son:
- RAID 0
- RAID 1
- RAID 1E
- RAID 5
- RAID 5EE
- RAID 6
- RAID 10
Nota:De estos RAID, aquí solo se describen con más detalles las configuraciones importantes y más utilizadas.
RAID 0 (separación de datos)
- RAID 0 distribuye datos en varias unidades para mayor velocidad.
- Esto utiliza franjas a nivel de bloque para la distribución de datos. Proporciona una alta tasa de rendimiento de lectura y escritura.
- No hay redundancia de datos en la configuración RAID 0.
- Aquí no se utiliza tolerancia a fallos.
- RAID 0 necesita un mínimo de 2 discos.
Si algún disco falla, se pierden todos los datos. Sin tolerancia a fallos.
RAID 1 (duplicación de datos)
- RAID 1 se utiliza para la operación de duplicación de datos.
- Todas las copias de los datos se escriben en ambas unidades de disco por motivos de redundancia.
- Aquí no se utilizan bandas para la distribución de datos.
- Esta configuración requiere un mínimo y un máximo de 2 unidades de disco.
- Aquí se produce una pérdida de capacidad del 50 % y una redundancia del 100 %.
Si una de las unidades de disco falla, los datos estarán disponibles con otra copia.
RAID 10 (matriz seccionada de discos reflejados)
Esta configuración ayudará en caso de falla del disco en ambos conjuntos de espejos. Las siguientes son algunas de las características de RAID 10.
- Proporciona altas tasas de E/S debido a múltiples segmentos seccionados.
- Se requieren un mínimo de 4 unidades para esta configuración.
- Sólo estará disponible el 50% de la capacidad.
- Ofrece un buen rendimiento de escritura.
Esta configuración admite hasta 2 fallas de disco
Nota:La paridad es un valor calculado que se utiliza para reconstruir datos después de una falla. Mientras los datos se escriben en un volumen RAID-5, la paridad se calcula realizando una operación OR exclusiva (XOR) en los datos. Luego, la paridad resultante se escribe en el volumen. Esto ayuda en la distribución de datos entre discos.
RAID 5 (striping con paridad distribuida)
- Esta configuración divide los datos en el nivel de bloque y distribuye la paridad entre los miembros de los discos duros del grupo RAID para la protección y disponibilidad de los datos.
- La paridad se calcula mediante la operación XOR.
- Utiliza franjas a nivel de bloque y utiliza paridad distribuida.
- 100% redundancia.
- Proporciona un mejor uso de la capacidad en comparación con RAID 1.
RAID 6 (striping con paridad distribuida dual)
Esto nuevamente utiliza segmentación a nivel de bloque con paridad distribuida dual.
- Aquí se utilizan dos esquemas de paridad distribuida independientes.
- El objetivo principal de esto es la tolerancia a fallos.
- Esto puede manejar fallas de dos unidades cualesquiera en toda esta matriz.
- Requiere al menos N+2 unidades para la implementación de esta configuración.
No se pierden datos incluso si fallan dos discos en esta configuración, ya que la paridad también se distribuye.
2. DAS (almacenamiento adjunto directo)
Aquí, colección de discos, que están conectados directamente al Host. Este es un modelo de bajo costo, fácil de usar y con mecanismo de conexión. Aquí se utiliza una conexión sencilla, ya sea mediante FCS (Fiber Channel) o mediante cableado SCSI. En algunos casos, también se utiliza HBA (adaptador de bus de host) junto con SAS (almacenamiento conectado en serie). Este mecanismo no es confiable y no es una forma eficiente de utilizar. Este mecanismo se utiliza en algunos casos para modelos de bajo costo y no confiables.
Figura 1: Conceptos y tecnologías de almacenamiento
Figura 2: Conectividad DAS con protocolos de controlador
3. SAN (Red de área de almacenamiento)
Esta tecnología se basa en el concepto de “entrada/salida a nivel de bloque” con alta velocidad. Este mecanismo es muy eficiente, seguro y confiable. Este mecanismo es un poco caro ya que implica muchos componentes de hardware para la conectividad, máquinas controladoras y adaptadores. Además, se admiten varios protocolos como iSCSI, SCSI, FC, FcOE y esto requiere cierta inteligencia en la conexión.
Figura 3: Conexión SAN simple
El diagrama anterior es el de una conexión SAN simple. Como se explicó anteriormente, esto se ha conectado mediante protocolos basados en FC o iSCSI. SAN no es más que un simple DAS, que agrega todo su almacenamiento en la red y proporciona acceso a datos orientado a bloques entre el almacenamiento de destino en la red y el sistema informático. SAN utiliza una red FC (canal de fibra) dedicada de alta velocidad o iSCSI (que no es más que Ethernet).
SAN tiene muchas ventajas que se enumeran a continuación:
- El acceso a SAN puede realizarse a distancias más largas, de entre 10 y 100 kilómetros, y con alta disponibilidad.
- SAN nos proporciona un rendimiento mejorado.
- Proporciona protección y respaldo de datos a través de la red LAN.
- Proporciona intercambio de datos con seguridad y conectividad de red confiable.
SAN también tiene desventajas.
- La configuración de SAN es muy costosa ya que involucra múltiples componentes.
- La configuración de SAN es compleja y desafiante.
- El mantenimiento de SAN necesita mayores habilidades.
Figura 4: Red SAN sobre IP
El diagrama anterior es una extrapolación de la Fig.3. Aquí se muestra cómo se conectan los subsistemas SAN mediante la red IP. Como se explicó anteriormente, SAN solo admite el flujo de datos basado en Block IO y no permite IO basado en archivos.
operaciones.
4. NAS (almacenamiento conectado a la red o almacenamiento de área de red)
NAS es una tecnología de almacenamiento de virtualización de sistemas de archivos que se conecta a una red basada en TCP/IP mediante una conexión LAN o WAN. Se accede a él mediante protocolos especializados de acceso/intercambio de archivos. NAS admite solicitudes de E/S y se basa en archivos en comparación con SAN, que se basa en el acceso a nivel de bloque.
Figura 5: Conexión NAS sencilla
NAS admite varios protocolos, como NFS (sistema de archivos de red, NFSv3, NFSv4, etc.), SMB (bloque de mensajes del servidor), CIFS (sistema de archivos común de Internet) o FTP (protocolo de transferencia de archivos), HTTP. Además, el NAS admite protocolos como AFP (protocolo de archivo de Apple), que se utiliza para máquinas MAC.
Figura 6: Conexión NAS a la red OverIP
NAS tiene las siguientes ventajas:
- Operaciones de datos confiables.
- Funciones integradas como buena eficiencia de almacenamiento.
- Datos seguros con autenticación.
- Las alertas automáticas por correo electrónico se pueden configurar fácilmente.
- Manejo de datos simple junto con capacidad de administración de infraestructura simple.
5. JBOD
Esto no es más que un montón de discos (JBOD) conectados entre sí. Aquí no se utiliza RAID ni ninguna tecnología de almacenamiento similar. El grupo de discos recién seleccionado se agrupa y conecta entre sí como Disk Array. Este JBOD se crea utilizando varios discos duros independientes y el sistema operativo subyacente reconoce todos estos discos como un único disco duro.
Este es nuevamente un modelo de bajo costo e ineficiente. Esto se utilizará cuando la seguridad y la eficiencia de los datos no sean tan importantes. Si los datos de uno de los discos se pierden, se perderán para siempre.
Lectura sugerida:
- Almacenamiento definido por software y almacenamiento de objetos en la era de la nube y la IoT
Conclusión
Aprender los conceptos de RAID, SAN y NAS ayudará a cualquier ingeniero de almacenamiento. Independientemente del progreso de las tecnologías de tipo nube e hiperconvergencia, comprender los conceptos fundamentales de almacenamiento es muy crucial e importante. Esto también ayudará a adquirir conocimientos sobre los conceptos de LVM y almacenamiento en la nube. Este artículo se centra principalmente en los tipos de configuraciones más destacados y utilizados habitualmente.
Si encuentra algún error o errata en esta guía, no dude en hacérnoslo saber. Modificaremos y actualizaremos la guía en consecuencia.
Sobre el Autor:Shashidhar Soppin trabaja en Wipro como arquitecto senior y tiene más de 18 años de experiencia en la industria de TI. Se especializa en programación de sistemas Unix/Linux, Virtualización, Docker, Cloud, AI-ML, Deep learning y OpenStack. Es autor, bloguero y tiene patentes y artículos escritos.
Contacto: [email protected].
¡Gracias por pasar!
Ayúdanos a ayudarte:
- Suscríbete a nuestro boletín de correo electrónico :Regístrate ahora
- Soporte OSTechNix:Donar a través de PayPal
- Descargue libros electrónicos y vídeos gratuitos:OSTechNix en TradePub
- Conéctate con nosotros:Reddit|Facebook|Twitter| LinkedIn | RSS Feeds
¡¡Que tenga un buen día!!