Dell DR4000 Manual del usuario

Página 16

Advertising

Cuando se realiza repetidamente la copia de seguridad de un documento, los 0 y 1 no cambian porque el archivo está
siendo simplemente duplicado. Pueden identificarse fácilmente las similitudes entre dos archivos mediante
desduplicación de bloques porque la secuencia de sus 0 y 1 se mantiene inalterable. Por otra parte, existen diferencias
de los datos en línea. Los datos en línea tienen pocos duplicados exactos. En lugar de esto, los archivos de datos en
línea incluyen archivos que pueden contener muchas similitudes entre cada archivo. Por ejemplo, la mayoría de
archivos que contribuyen al aumento de los requisitos de almacenamiento de datos son comprimidos previamente por
sus aplicaciones nativas, como por ejemplo:

•

Imágenes y vídeo (por ejemplo, los formatos JPEG, MPEG, TIFF, GIF y PNG)

•

Documentos compuestos (por ejemplo, archivos .zip, correo electrónico, HTML, páginas web y PDF)

•

Documentos de aplicaciones de Microsoft Office (entre ellos, PowerPoint, MS-Word, Excel y SharePoint)

NOTA: El sistema DR Series experimenta un porcentaje de ahorro reducido cuando los datos que incorpora ya

tienen la compresión habilitada por la fuente de datos nativa. Es muy aconsejable deshabilitar la compresión

de datos utilizada por la fuente de datos. Para obtener ahorros óptimos, las fuentes de datos nativas deben

enviar datos al sistema DR Series en un estado sin procesar para la incorporación.

La desduplicación de bloques no es tan eficaz sobre los archivos comprimidos existentes debido a la naturaleza de la
compresión de archivos, porque sus 0 y 1 cambian con respecto al formato original. La desduplicación de datos es una
forma especializada de compresión de datos que elimina muchos datos redundantes. La técnica de compresión mejora
el uso del almacenamiento y puede emplearse en transferencias de datos de red para reducir el número de bytes que
deben enviarse a través de un enlace. El uso de desduplicación permite identificar y almacenar fragmentos de datos
únicos o patrones de byte, durante el análisis. A medida que el análisis continúa, se comparan otros fragmentos con la
copia almacenada y, si se produce una coincidencia, se sustituye el fragmento redundante por una pequeña referencia
que señala a su fragmento almacenado. Esto reduce la cantidad de datos a almacenar o transferir, lo que contribuye a
obtener ahorros de red. Los ahorros de red se consiguen mediante el proceso de replicación de los datos que ya se han
sometido a desduplicación.
En cambio, las herramientas de compresión de archivos estándar identifican las cadenas secundarias cortas repetidas
dentro de los archivos individuales, para que la desduplicación de datos basada en el almacenamiento inspeccione
grandes volúmenes de datos e identifique grandes cantidades de datos como archivos completos o grandes secciones
de archivos que sean idénticos. Después de esto, este proceso permite que el sistema almacene solo una copia de los
datos específicos. Esta copia se comprimirá adicionalmente mediante técnicas de compresión de archivo único. Por
ejemplo, pueden existir casos en los que un sistema de correo electrónico contenga 100 (o más) correos electrónicos
en los que se envíe el mismo archivo de 1 Megabyte (MB) como adjunto. A continuación se indica cómo se trata este
caso:

•

Sin desduplicación de datos, cada vez que se hace copia de seguridad del sistema de correo electrónico, se

guardan las 100 instancias del mismo archivo adjunto, lo que requiere 100 MB de espacio de almacenamiento.

•

Con desduplicación de datos, realmente solo se almacena una instancia del archivo adjunto (todas las instancias

subsiguientes se referencian de nuevo a la copia guardada), con una relación de desduplicación de

aproximadamente 100 a 1. Los fragmentos de datos únicos que representan el archivo adjunto se desduplican al

nivel de fragmentación de bloques.

NOTA: El sistema DR Series no admite desduplicación de ningún dato cifrado. Por lo tanto, no se obtendrán

ahorros de desduplicación por la incorporación de datos cifrados. El sistema DR Series no puede desduplicar

datos que ya estén cifrados, porque considera que los datos son únicos y, en consecuencia, no puede

desduplicarlos.

Si se utilizan unidades de cifrado automático (SED), la SED o la capa de cifrado descifra los datos cuando la aplicación
de copia de seguridad los lee. Se trata de un proceso similar a abrir un documento de MS-Word que fue almacenado en
una SED. Esto significa que puede leerse y desduplicarse cualquier dato almacenado en una SED. Si habilita el cifrado
en el software de copia de seguridad, perderá los ahorros de desduplicación porque cada vez que se cifran los datos, el
sistema DR Series considera que son únicos.
Replicación: replicación es el proceso mediante el cual los mismos datos clave se guardan en varios dispositivos de
almacenamiento, con el fin de mantener la coherencia entre los recursos redundantes de los entornos de

Advertising