25.07.2014

Data Deduplication: Datenbestände verschlanken und konsolidieren

Kennen Sie das? Sie unterhalten sich beim Apéro über die neuesten Trends in der IT und wollen Ihr Gegenüber mit einem möglichst komplizierten und exotischen Fachbegriff beeindrucken. Da können wir Ihnen helfen – vorausgesetzt, Sie schaffen es, diesen Begriff fehlerfrei und möglichst elegant über Ihre Lippen kommen zu lassen. Erwähnen Sie doch einfach ganz lässig, dass Sie selbstverständlich schon seit langem Data Deduplication betreiben.

Von: Lars Behrens   Drucken Teilen   Kommentieren  

Lars Behrens, Dipl.-Paed

Lars Behrens ist Geschäftsführer der Firma MaLiWi IT. Staatlich geprüfter Netzwerkadministrator, Microsoft MCP/Linux LCP. Er hat langjährige Erfahrung in der Beratung bei Planung und Einrichtung von IT-Systemen und Netzwerken und dem Support heterogener Systeme (Apple Macintosh, Microsoft Windows, Linux). Universitätsstudium der Pädagogik, mehrere Jahre Tätigkeit im Ausland. Seminar- und Kursleiter, Referent und Fachbuchautor. Weiterhin ist er Herausgeber von dem Online-Fachportal «InformatikPraxis» bei der WEKA Business Media AG.

MaLiWi IT

 zum Portrait

Zu diesem Artikel wurden noch keine Kommentare geschrieben. Wir freuen uns, wenn Sie den ersten Kommentar zu diesem Artikel verfassen.
 
Kommentar schreiben

Bitte Wert angeben!

Bitte Wert angeben!

Bitte Wert angeben! Bitte geben Sie eine gültige E-Mail-Adresse ein!

Bitte Wert angeben!

Bitte Wert angeben!

Bitte Wert angeben!

Bitte alle fett beschrifteten Pflichtfelder ausfüllen.
Zurücksetzen
 
Data Deduplication

Nun sollten Sie durchaus bereits einmal zu üben beginnen, bis es Ihnen leicht über die Lippen geht: Data Deduplication oder – mit k – Data Deduplikation; oder vielleicht halb deutsch: Daten-Deduplikation? Oder gar Data Deduplication? Der Begriff Daten Depluzierung meint zwar dasselbe wie das englische Buzz-Wort Datadeduplication, aber letzterer klingt doch viel spannender. Auf jeden Fall ist es kein ganz neuer Trend mehr, sondern bereits seit Jahren auf dem IT-Markt verfügbar. Was aber ist damit gemeint?

Nun, in Zeiten digitaler Datenhaltung wachsen die Mengen an Informationen an. Text- und Bilddateien, Multimedia in Form von Audio und Video, Datenbanken – all dies sammelt sich auf den Servern vermutlich auch Ihres Unternehmens. Dateien werden munter hin- und herkopiert, Emails werden auf dem Mailserver hin- und her gesendet und verändern sich dabei quasi nicht, und das lustige Video vom Staplerfahrer Klaus kennt inzwischen auch die gesamte Buchhaltungsabteilung – herumliegen tut es dort aber trotzdem seit Jahren mehrfach in allen möglichen/home-Verzeichnissen.

Problem: redundante Daten

Praktisch jedes Unternehmen hält also eine ganze Menge an redundanten Informationen vor – und diese wollen im laufenden Backup gesichert werden. Den Dateifreigaben und Backupprozessen ist es ja erst einmal gleichgültig, welche Inhalte sie verarbeiten. Sie meinen, dies sei in den heutigen Zeiten der günstig zu erstehenden Festplatten kein Thema für Sie? Schliesslich bekommt man die externe 2-Terabyte-Festplatte inzwischen bei der Migros für wenig mehr als CHF 100 – und im Online-Handel lassen sich auch für den 24/7-Servereinsatz konzipierte Terabyte-Festplatten einigermassen günstig erstehen.

Das Problem liegt aber darin, dass diese scheinbar endlose Verfügbarkeit dennoch nicht mit dem exponentiellen Wachstum der zu speichernden Daten mithält. Dies hat das US-Unternehmen IDC, die International Data Corporation, festgestellt. Die Schlussfolgerung der IDC lässt an Deutlichkeit nichts zu wünschen übrig: «Total spending on storage systems, gateways, and software (with supporting servers) for file-based storage will increase 14.8% to $20.1 billion in 2012.» Und Richard Villars von IDC konkludiert: «The management and organization of file-based information will become the primary task for many datacenter planners and administrators.»

Data Deduplication: Daten wirksam reduzieren

Die Bewältigung der immens steigenden Mengen an vorzuhaltenden Daten wird nur über Reduzierung möglich sein – und die Vermeidung von Redundanzen, also Wiederholungen, ist der Königsweg zur erfolgreichen Datenreduktion. Hier kann (neben einer einfachen Suche nach Dateiduplikaten) die Daten Deduplication auf Blockebene ansetzen und zu einer Effektivierung der immens angestiegenen Datenmengen auf den Shares und in den Backups führen. Technisch gesehen funktioniert Data Deduplication so, dass eine Datei in sehr kleine Blöcke zerlegt wird. Dann versucht die Deduplizierung, identische Muster in bereits vorhandenen Blöcken zu finden. Sind diese vorhanden, muss nicht mehr die gesamte Datei abgelegt und übertragen werden, stattdessen wird nur noch ein so genannter Zeiger angelegt, der auf die bereits gespeicherten Blöcke verweist.

Dabei wird nicht nur Speicherplatz gespart – durch die teilweise beträchtliche Reduktion der Datenmengen wird auch weitaus weniger Bandbreite bei der Übertragung von Daten benötigt – das wiederum beschleunigt Datenübertragungen über WAN- bzw. VPN-Verbindungen an entfernte Standorte oder in die populäre Cloud. Verschiedene Quellen sprechen von bis zu 50facher Reduzierung der Datenmengen, Scott M. Johnson spricht in seinem Blog von 30 bis 90% Einsparungen und bringt das Beispiel einer 200 GB grossen Festplatte, auf der 1,7 TeraByte (!) an Daten bereitgestellt werden.

Daten Deduplication tut also Not – so viel lässt sich mit Bestimmtheit sagen. Wie aber setzen Sie Daten Deduplication in Ihrem Hause um? Schliesslich wussten Sie vielleicht vor zehn Minuten noch gar nicht, dass es diesen Begriff gibt und was sich dahinter verbirgt.

Wie fast immer in der IT ist es nach dem grundsätzlichen Verständnis nur noch eine Frage der richtigen Werkzeuge, sprich Software und der entsprechenden erstmaligen Einrichtung – danach sollten Sie sich um Daten Deduplication eigentlich keine weiteren Gedanken mehr machen.

Lösungen zur Data Deduplication

Es gibt eine ganze Reihe an Anbietern für Lösungen zur Data Deduplication - beispielsweise Symantec, Quantum, HP und Avamar respektive EMC (Data Domain). Windows Server 2012 wird ebenfalls Techniken zur Daten-Depluzierung mitbringen. Für Linux stehen unter anderem LessFS und SDFS zur Verfügung. Und Sie sollten einen Blick auf das Open Vault-Storage des OpenCompute-Projekts werfen, das ursprünglich von Facebook ins Leben gerufen wurde, inzwischen aber zunehmend Verbreitung und Unterstützung durch so namhafte Hersteller von IT-Lösungen wie HP gefunden hat. Auch hier könnte sich ein ähnlicher Erfolg eines Open Source-Projekts anbahnen, wie er bereits auf dem Gebiet der Web-(Apache), Mailserver (Postfix) und offenen Server- und Embedded-Betriebssysteme (Linux, OpenBSD) stattgefunden hat. In den Worten eines Kommentators, der Erfahrungen mit proprietären und auch OpenSource-Lösungen der Datendeduplizierung gemacht hat: «Die Kosten der kommerziellen Lösungen betrugen ca. 350000 $ für eine EMC- und 800.000 $ für eine Avamar-Lösung, mithin 12000 $ pro TeraByte und 9000 $ pro Server (!). Nun sind wir dabei, dieses durch Opencompute/storage nodes zu ersetzen. Für das Geld, das wir für die kommerziellen Lösungen ausgegeben haben, würden wir 8,7 PetaByte an Opencompute-Storage erhalten. Alles Opensource. Nichts proprietäres. Weshalb sieht man nicht mehr davon? Nun, die meisten Unternehmer sind einfach nicht clever genug.» (DaveW, zitiert nach www.enterprisestorageforum.com, sinngemässe Übersetzung: Lars Behrens)

Fazit

Auf Data Deduplication könnten Sie kein Patent mehr anmelden – aber Sie könnten und sollten es nutzen, um Ihre Datenbestände gründlich zu verschlanken und konsolidieren und somit letztlich beträchtliche Kosten zu sparen. Vor allem die Einsparungen bei der Datenübertragung über Netzwerke sprechen deutlich für diese Technik. Und nebenbei können Sie vielleicht noch den Kollegen beim Apéro beeindrucken.

MaLiWi IT

Seminar-Empfehlung

Praxis-Seminar, 1 Tag, ZWB, Zürich

IT-Verträge entwerfen und verhandeln

Rechtssicherheit bei IT-Projekten, Outsourcing und Cloud Computing

Gehen Sie rechtssicher mit IT-Outsourcing und Cloud Computing um. Lernen Sie die Rahmenbedingungen kennen, schätzen Sie Risiken realistisch ein und beurteilen Sie Verträge professionell.

Nächster Termin: 22. November 2018

mehr Infos

Produkt-Empfehlungen

  • InformatikPraxis

    InformatikPraxis

    DIE ultimative Praxislösung für IT-Entscheider!

    ab CHF 168.00

  • IT-Sicherheit

    IT-Sicherheit

    Schützen Sie Ihr Unternehmen konsequent vor Systemstörungen und Risiken.

    Mehr Infos

  • Cloud-Computing

    Cloud-Computing

    Erfahren Sie welchen Nutzen Cloud-Computing Ihnen und Ihrem Unternehmen bringen kann.

    Mehr Infos

Um unsere Website laufend zu verbessern, verwenden wir Cookies. Durch die Nutzung dieser Website stimmen Sie der Verwendung von Cookies zu. Mehr Infos