Deduplicação ou desduplicação de dados, o que é e quando usar?

Índice de conteúdos

Como empresa, você tende a trabalhar com uma quantidade significativa de dados – já que hoje, cada pessoa com um dispositivo digital é um gerador de dados.

Ou seja, novos dados estão sendo gerados a cada segundo, e armazenar esses dados é um desafio.

Afinal, você precisa captar esses dados e classificá-los para formar alguns padrões que possam ser usados pela sua empresa.

Mas, sua empresa tem a capacidade de armazenamento de dados limitada. Adicionar mais armazenamento aumenta as despesas, porém você ainda precisa de todos esses dados.

Qual é a solução?

É a deduplicação de dados – que não é um sinônimo para armazenamento de instância única, nem para compressão.

Neste artigo, descubra quais são as diferenças entre os dois processos, quando usar a deduplicação e como ela funciona.

O que significa data deduplication?

Significa deduplicação (ou desduplicação) de dados: um processo que elimina cópias redundantes de dados e reduz a sobrecarga de armazenamento.

As técnicas de desduplicação garantem que apenas uma instância exclusiva de dados seja retida na mídia de armazenamento, como disco, flash, entre outros.

Blocos de dados redundantes são substituídos por um ponteiro para a cópia de dados exclusiva.

Dessa forma, a desduplicação se alinha com o backup incremental, que copia apenas os dados que foram alterados desde o backup anterior.

Por exemplo, um sistema de e-mail típico pode conter 100 instâncias do mesmo anexo de arquivo de 1 MB.

Se houver backup ou arquivamento da plataforma de e-mail, todas as 100 instâncias serão salvas, exigindo 100 MB de espaço de armazenamento.

Com a desduplicação de dados, apenas uma instância do anexo é armazenada e cada instância subsequente é referenciada de volta para a cópia salva.

Assim, conforme o exemplo, uma demanda de armazenamento de 100 MB cai para 1 MB.

Deduplicação ou desduplicação de dados?

Deduplicação e desduplicação de dados são sinônimos. Ambos representam uma tecnologia em que se compacta os dados, gerando economia de muito espaço e reduzem as necessidades de armazenamento, eliminando dados redundantes.

Isto é, apenas uma instância exclusiva dos dados é realmente retida na mídia de armazenamento, como disco ou fita. Os dados redundantes são substituídos por um ponteiro para a cópia de dados exclusiva.

O que é deduplicação de dados?

Como vimos antes, a desduplicação é um método de eliminação de dados redundantes de um conjunto de dados.

Em um processo seguro de desduplicação de dados, uma ferramenta identifica cópias extras de dados e as exclui, para que uma única instância possa ser armazenada.

Ou seja, a deduplicação permite que os usuários eliminem dados redundantes e gerenciem com mais eficiência a atividade de backup — além de garantir backups mais eficazes.

Qual a diferença entre deduplicação e armazenamento de instância única?

Enquanto o armazenamento de instância única substitui as referências a arquivos idênticos em um sistema de arquivos por referências a uma única cópia de armazenamento do arquivo, a desduplicação compara registros eletrônicos com base em suas características e remove ou marca registros duplicados no conjunto de dados.

Qual a diferença entre deduplicação e compressão?

É fundamental entender o que diferencia às duas. Afinal, com isso, saberemos qual funciona melhor para cada caso.

Confira a seguir as principais diferenças entre deduplicação e compressão:

Processo: na desduplicação, os dados são agrupados com base nos blocos comuns neles contidos. Uma única versão de cada bloco é mantida, enquanto as outras ocorrências são referenciadas usando ponteiros. Por outro lado, na compactação, dados adicionais, espaços, entre outros, são eliminados para reduzir o tamanho do arquivo de dados

Taxa de redução de tamanho: a compactação reduz o tamanho dos dados para a proporção de 2:1 até 2,5:1, conforme reivindicado por alguns programas com base nos tipos de arquivos de dados disponíveis. Com a deduplicação, porém, os dados são alterados substancialmente. Além disso, as taxas de redução podem variar de 4:1 até 20:1 – e alguns dados específicos podem até ser reduzidos para 200:1. Porém, isso depende do tipo de dados disponível e, portanto, o mesmo programa de desduplicação pode compactar diferentes tipos de dados com taxas variadas de redução

Perda de dados: a deduplicação envolve agrupar dados e manter uma única cópia dos dados redundantes. Isso resulta na eliminação de muitos dados originais, mas os principais não mudam. Dessa forma, a perda de dados na desduplicação é mínima. Por outro lado, na compactação, o excesso de dados é eliminado. Ou seja, há uma perda de dados envolvida, mesmo que isso não prejudique a integridade geral deles

Alterações nos dados: a compactação remove os dados excessivos, mas o pacote de dados principal permanece o mesmo. Assim, o pacote de dados geral não é tão alterado. Com a desduplicação, porém, os dados são alterados substancialmente devido a números de hash e ponteiros. Se os dados compactados forem usados sem o software relevante, não farão sentido. Enquanto que, com a compactação, eles podem ser usados como estão, pois os dados principais permanecem os mesmos.

Quando usar a deduplicação de dados (DEDUP)?

A desduplicação é ideal para operações muito redundantes — como backups — que exigem copiar e armazenar repetidamente o mesmo conjunto de dados várias vezes para fins de recuperação.

O ideal é realizar esse procedimento em períodos de 30 a 90 dias.

Como funciona a deduplicação de dados?

A desduplicação segmenta um fluxo de dados de entrada, identifica segmentos de dados de forma exclusiva e compara os segmentos com dados armazenados anteriormente.

Se o segmento for único, ele será armazenado em disco. Caso um segmento de dados de entrada for uma duplicata do que já foi armazenado, uma referência é criada para ele e o segmento não é armazenado novamente.

Por exemplo, um arquivo ou volume cujo backup é feito toda semana e cria uma quantidade significativa de dados duplicados.

Nesse caso, os algoritmos de desduplicação analisam os dados e armazenam apenas os segmentos compactados e exclusivos de um arquivo.

Esse processo pode proporcionar uma redução média de 10 a 30 vezes nos requisitos de capacidade de armazenamento, com políticas médias de retenção de backup em dados corporativos normais.

Isso significa que as empresas podem armazenar de 10 TB a 30 TB de dados de backup em 1 TB de HD, o que traz enormes benefícios econômicos.

Deduplicação ao nível de arquivo

Com esta modalidade, é possível ignorar o armazenamento de cópias de vários arquivos – que são substituídas pelo link do arquivo original.

Através das “impressões digitais” dos objetos (conjunto de caracteres exclusiva em cada arquivo), é checado se ele já está armazenado.

Sendo que a técnica de impressão digital, normalmente, se baseia em métodos de hashing ou atributos de arquivo — dependendo da solução de desduplicação.

Esta modalidade tem a implementação mais fácil, já que seus índices são menores e demoram menos para computação.

Por outro lado, sua economia de armazenamento é inferior à da desduplicação ao nível de bloco — permitindo economizar no máximo 80% em espaço de armazenamento.

Isso porque, quando está operando ao nível de arquivo, o sistema trata qualquer alteração mínima como um arquivo novo.

Vale destacar que a maior economia é percebida no armazenamento compartilhado (como sistemas NAS, arquivos ou pastas compartilhados) — já que costumam conter várias cópias dos mesmos arquivos.

Outro ponto: a eficiência da desduplicação também depende dos tipos de arquivos. Imagens ou áudios, por exemplo, geralmente são únicos e não se beneficiam do processo. Enquanto modelos e arquivos internos do sistema costumam apresentar boa taxa de deduplicação.

Deduplicação ao nível de bloco

Uma modalidade mais profunda, a desduplicação ao nível de bloco verifica a exclusividade de todos os arquivos.

Nela, quando um arquivo é alterado, o sistema armazena apenas as partes (chamadas de blocos) modificadas do arquivo original.

Considerando que cada bloco possui sua identificação própria (normalmente gerada através de um algoritmo de hash) o sistema os compara com os metadados já armazenados.

Com isso, é possível economizar um espaço maior — visto que a taxa de redução através da deduplicação ao nível de bloco pode alcançar até 95%.

Por outro lado, essa modalidade exige mais computação, já que o número de objetos (blocos) a serem processados é consideravelmente maior.

Armazenamento em nuvem para o backup

O ideal para reduzir ainda mais o espaço consumido e economizar em armazenamento seria usar um sistema de backup com back end baseado em nuvem.

O problema é que grande parte dos provedores de armazenamento não oferece a alternativa de desduplicação nativa — e, quando oferecem, cobram a mais por isso.

O que resta é implementar um software de deduplicação independente para fazer upload apenas de dados deduplicados para a nuvem

Precisa recuperar dados no HD com deduplicação?

Mesmo um HD com desduplicação pode sofrer danos físicos ou falhas que causam a perda de dados.

Quando isso ocorre, o ideal é recorrer a um serviço especializado em recuperação de dados, para garantir que você terá seus arquivos e documentos de volta em segurança – sem o risco de comprometer ainda mais seu HD.

Aqui na Bot, por exemplo, trabalhamos com a sala limpa — um ambiente com todas as partículas controladas, garantindo a integridade do seu disco.

Além disso, temos uma experiência de mais de uma década recuperando dados e já resolvemos mais de 60.000 casos com sucesso.

Conclusão

A deduplicação (ou desduplicação) é um processo que elimina cópias excessivas de dados e diminui significativamente os requisitos de capacidade de armazenamento.

Diferente do que algumas pessoas podem acreditar, a desduplicação não é o mesmo que compressão, nem armazenamento de instância única — e classifica-se em dois tipos: ao nível de arquivo e de bloco.

O processo de desduplicação é indicado para operações muito redundantes (como backups) e deve ser realizada com uma frequência de 30 a 90 dias — podendo ser armazenado em nuvem, para garantir a segurança dos dados.

Por fim, vale destacar que um HD com deduplicação também pode sofrer danos que causem a perda dos seus dados.

Nesse caso, é recomendável recorrer a uma recuperação profissional de dados, como a que oferecemos aqui na Bot.

Além de garantirmos a integridade do seu HD, também custeamos o envio do seu dispositivo a partir de qualquer localidade do Brasil e podemos recuperar seus dados em até 48h – ou menos!

Portanto, se você quer agilidade e segurança ao recuperar seus arquivos e documentos, inicie já sua recuperação de dados conosco!

Categorias: