03.08.2016

Deduplication: Daten-Deduplizierung – Allheilmittel gegen Speichermangel?

Früher oder später kommt der Zeitpunkt, an dem Sie Daten verschieben, löschen oder auslagern müssen. Bietet Daten-Deduplizierung eine nachhaltige Lösung für dieses Problem? Und was ist darunter überhaupt zu verstehen? Mehr dazu finden Sie hier.

Von: Lars Behrens   Drucken Teilen   Kommentieren  

Lars Behrens, Dipl.-Paed

Lars Behrens ist Geschäftsführer der Firma MaLiWi IT. Staatlich geprüfter Netzwerkadministrator, Microsoft MCP/Linux LCP. Er hat langjährige Erfahrung in der Beratung bei Planung und Einrichtung von IT-Systemen und Netzwerken und dem Support heterogener Systeme (Apple Macintosh, Microsoft Windows, Linux). Universitätsstudium der Pädagogik, mehrere Jahre Tätigkeit im Ausland. Seminar- und Kursleiter, Referent und Fachbuchautor. Weiterhin ist er Herausgeber von dem Online-Fachportal «InformatikPraxis» bei der WEKA Business Media AG.

MaLiWi IT

 zum Portrait

Zu diesem Artikel wurden noch keine Kommentare geschrieben. Wir freuen uns, wenn Sie den ersten Kommentar zu diesem Artikel verfassen.
 
Kommentar schreiben

Bitte Wert angeben!

Bitte Wert angeben!

Bitte Wert angeben! Bitte geben Sie eine gültige E-Mail-Adresse ein!

Bitte Wert angeben!

Bitte Wert angeben!

Bitte Wert angeben!

Bitte alle fett beschrifteten Pflichtfelder ausfüllen.
Zurücksetzen
 

Ein Problem mit dem Speicherplatz kann Ihnen nicht entstehen, denken Sie?

In Zeiten digitaler Datenhaltung wachsen die Mengen an elektronisch abgelegten Informationen an. Emails, Text- und Bilddateien, Multimedia in Form von Audio und Video - all dies sammelt sich auf Ihrem PC, dem Laptop, Smartphone oder Tablet. Ein Problem mit dem Speicherplatz kann Ihnen nicht entstehen, denken Sie - schliesslich lagern Sie ja alles Erdenkliche in irgendwelche Clouds und alles, was Sie geschäftlich nutzen, ohnehin auf Ihren Servern. Ganz gleich, um welche Art von Daten es sich in heutigen IT-Systemen handelt - alle Daten werden immer als wichtig und unverzichtbar angesehen, aber sehr, sehr viele davon sind mehrfach vorhanden. Mails, Word-Dokumente, Bilder, Präsentationen und so fort sind in fast jedem Unternehmen zumindest doppelt, wenn nicht gar drei- bis mehrfach vorhanden. Aber selbst bei sorgfältiger Vermeidung von Dubletten und dem Löschen nicht mehr genutzter Daten wachsen die Datenbestände in praktisch jedem IT-System immer weiter an, und früher oder später kommt der Zeitpunkt, an dem der Speicherplatz auf Ihrem Server erneut erschöpft ist. Und auch eine Cloud-Lösung, bei der mittels entsprechender Festplattenverwaltungen wie LVM die Speicherkapazitäten im laufenden Betrieb und dynamisch ausgeweitet werden können, kaschiert das Problem der über grossen Datenbestände nur und löst es nicht an der Wurzel.

Die scheinbar endlose Verfügbarkeit

Eigentlich ist es unverständlich - aber dann doch wiederum nicht. Unendlich ist nach heutigem Stand der Erkenntnis nicht mal mehr das Weltall, und weshalb sollte es dem Speicherplatz auf Ihren IT-Systemen also anders ergehen? Praktisch jedes Unternehmen hält nämlich eine ganze Menge an redundanten Informationen vor - und diese wollen zur Verfügung gestellt und im laufenden Backup gesichert werden. Sie meinen, dies sei in den heutigen Zeiten der halbwegs günstig zu erstehenden Festplatten und SAN/NAS-Systeme kein Thema für Sie? Das Problem liegt aber darin, dass diese scheinbar endlose Verfügbarkeit dennoch nicht mit dem exponentiellen Wachstum der zu speichernden Daten mithält. Nun könnte man natürlich hergehen und manuell oder mittels entsprechender Software-Tools nach Duplikaten suchen und diese löschen (lassen). Hierfür gibt es eine ganze Reihe an Programmen, die alle mehr oder weniger gut ihren Dienst tun. Allerdings werden ja nur tatsächlich identische Dateien gelöscht, das Verfahren muss noch durch Sie oder den Administratoren angestossen und überwacht werden - und vielleicht ist es in manchen Fällen ja auch gewollt, dass identische Dateien an verschiedenen Speicherorten verfügbar sind. Verknüpfungen, Links, Aliasse (oder wie auch immer solche Querverweise unter den Betriebssystemen Windows, MacOS oder Linux/Unix heissen) bieten hierfür nicht immer eine adäquate Lösung.

Vermeiden von Wiederholungen

Eine bereits seit einigen Jahren bekannte und bestechend simple wie geniale Möglichkeit liegt in einer Deduplikation der Daten - man muss dieses Prinzip nur erst einmal verstehen und vor allem auch umsetzen. Sehr vereinfacht gesagt, handelt es sich um eine Suche nach immer gleichen Grundmustern in den verwendeten Dateien und die Reduzierung auf immer dieselben Datenmuster. Das klappt natürlich nur auf Blockebene, also in den Bits und Bytes, aus denen unsere Daten nun einmal bestehen. Wiederum sehr vereinfacht kann man sich den Aufbau eines Textes vorstellen. Dieser wird aus den Buchstaben des jeweils verwendeten Alphabets beziehungsweise Zeichensatzes zusammengesetzt. Ein auf De-Duplikation der Daten ausgelegtes System würde nun nicht jeden Buchstaben neu generieren, sondern stattdessen einen winzigen Verweis, einen Zeiger darauf anlegen, wo die originäre Information zu finden ist. Eine Ersparnis ergibt sich logischerweise natürlich nur dann, wenn der Verweis kleiner ist als die referenzierte Information. Sind die Buchstaben 16 Byte gross und jeder Zeiger nur 4 Byte, ergibt sich bereits eine erhebliche Einsparung der Datenmenge. Wohlgemerkt: Es geht nicht um Löschung von Daten, sondern um die Vermeidung von Redundanzen, also Wiederholungen. Hier kann Datendeduplizierung ansetzen und zu einer Effektivierung der immens angestiegenen Datenmengen auf den Shares und in den Backups führen. Dabei wird nicht nur Speicherplatz gespart - durch die teilweise beträchtliche Reduktion der Datenmengen wird auch weitaus weniger Bandbreite bei der Übertragung von Daten benötigt; das wiederum beschleunigt Datenübertragungen über WAN- bzw. VPN-Verbindungen an entfernte Standorte oder in die populäre «Cloud».

30 bis 90 % Einsparungen

Verschiedene Quellen sprechen von bis zu 50facher Reduzierung der Datenmengen, Scott M. Johnson spricht in seinem Blog von 30 bis 90 % Einsparungen und bringt das Beispiel einer 200 GB grossen Festplatte, auf der 1,7 TeraByte (!) an Daten bereitgestellt werden (Quelle: blogs.technet.com/b/filecab/archive/2012/05/21/introduction-to-data-deduplication-in-windows-server-2012.aspx). Bei der in Windows 2012 und 2012 R2 in den Versionen «Standard», «DataCenter» und «Storage Standard» verwendeten Datendeduplizierung werden die Dateien in wenige KByte kleine Blöcke («Chunks») unterteilt und mehrfach vorhandene zusammenfasst. Deren Grösse variiert laut Microsoft von 32 bis 128 KByte - wir sehen also, dass schon sehr weit herunter «parzelliert» wird. Nun ergibt sich aber offensichtlich ein neues Problem - wer verwaltet die Zeiger, und wie sind diese wiederum gegen einen Ausfall geschützt? Tatsächlich muss hier einiger Aufwand betrieben werden, um die üblicherweise verwendeten Referenzierungstabellen auf Fehler zu überprüfen und im Notfall schnell wiederherstellen zu können. Allerdings ist es wie fast immer in der IT eigentlich «nur» eine Frage der richtigen Werkzeuge, sprich Software und der entsprechenden erstmaligen Einrichtung - danach sollten Sie sich um Daten-Deduplizierung eigentlich keine weiteren Gedanken mehr machen. Allerdings gilt es auch zu beachten, dass solche Lösungen teilweise erhebliche Investitionen erfordern – hier sollten Sie also vorab Kosten und Nutzen gegeneinander abwägen. Bedenken Sie dabei alle Aspekte – Ersteinrichtung, laufende Betreuung und Wiederherstellung im Falle eines Ausfalls.

Einsparung Ihrer Daten und Reduzierung bei der Übertragung über Ihre (VPN-)Netzwerke

Für eine Deduplizierung spricht, dass sich neben Einsparungen bei der Vorhaltung und Sicherung Ihrer Daten auch eine Reduzierung bei der Übertragung über Ihre (VPN-)Netzwerke ergibt.Es gibt eine ganze Reihe an Anbietern für Lösungen zur Data Deduplikation - beispielsweise Barracuda Networks, Symantec (Backup Exec), Zycko, Quantum, HP und EMC. Windows Server 2012 bringt, wie erwähnt, ebenfalls Techniken zur Daten-Deduplizierung mit. Und Sie sollten einen Blick auf das Open Vault-Storage des OpenCompute-Projekts werfen, das ursprünglich von Facebook ins Leben gerufen wurde, inzwischen aber zunehmend Verbreitung und Unterstützung durch so namhafte Hersteller von IT-Lösungen wie HP gefunden hat. In den Worten eines Kommentators, der Erfahrungen mit proprietären und auch OpenSource-Lösungen der Datendeduplizierung gemacht hat: «Die Kosten der kommerziellen Lösung betrugen ca. 350'000 $ für eine EMC- und 800'000 $ für eine Avamar-Lösung, mithin 12'000 $ pro TeraByte und 9'000 $ pro Server (!). Nun sind wir dabei, dieses durch Opencompute/storage nodes zu ersetzen. Für das Geld, das wir für die kommerziellen Lösungen ausgegeben haben, würden wir 8,7 PetaByte storage erhalten. Alles Opensource. Nichts proprietäres. Weshalb sieht man nicht mehr davon? Nun, die meisten Unternehmer sind einfach nicht clever genug.» (DaveW, zitiert nach www.enterprisestorageforum.com/backup-recovery/data-dedupe-products-to-consider.html, sinngemässe Übersetzung Lars Behrens) 

Fazit

Auf Data Deduplication könnten Sie kein Patent mehr anmelden – aber Sie könnten ein Deduplizierungs-Verfahren nutzen, um Ihre Datenbestände gründlich zu verschlanken und zu konsolidieren. Ob Sie dadurch tatsächlich Kosten sparen, sollte zuvor allerdings sorgfältig erwogen werden. Für die Deduplizierung sprechen die Reduzierungen nicht nur in den laufenden Beständen, sondern auch in den dadurch verschlankten Backups. Zudem ergeben sich Vorteile bei der Übertragung beispielsweise über VPN-Tunnel. Dagegen sprechen die Komplexität und die sich daraus eventuell ergebenden Risiken und Kosten.

Einen ausführlicheren Beitrag zum Thema «Daten-Deduplikation» einschliesslich eines Planungsbeispiels finden Sie in unserem iDesk «InformatikPraxis».

Seminar-Empfehlung

Praxis-Seminar, 1 Tag, ZWB, Zürich

IT-Verträge entwerfen und verhandeln

Rechtssicherheit bei IT-Projekten, Outsourcing und Cloud Computing

Gehen Sie rechtssicher mit IT-Outsourcing und Cloud Computing um. Lernen Sie die Rahmenbedingungen kennen, schätzen Sie Risiken realistisch ein und beurteilen Sie Verträge professionell.

Nächster Termin: 22. November 2018

mehr Infos

Produkt-Empfehlungen

  • IT-Sicherheit

    IT-Sicherheit

    Schützen Sie Ihr Unternehmen konsequent vor Systemstörungen und Risiken.

    CHF 98.00

  • Führung kompakt

    Führung kompakt

    Der Impuls-Letter für die wirkungsvolle Führungskraft in gedruckter Form.

    Mehr Infos

  • Cloud-Computing

    Cloud-Computing

    Erfahren Sie welchen Nutzen Cloud-Computing Ihnen und Ihrem Unternehmen bringen kann.

    Mehr Infos

Seminar-Empfehlungen

  • Praxis-Seminar, 1 Tag, ZWB, Zürich

    Datenschutz am Arbeitsplatz

    Rechte und Pflichten im Umgang mit Mitarbeiter- und Bewerberdaten

    Nächster Termin: 14. November 2018

    mehr Infos

  • Praxis-Seminar, 1 Tag, ZWB, Zürich

    IT-Verträge entwerfen und verhandeln

    Rechtssicherheit bei IT-Projekten, Outsourcing und Cloud Computing

    Nächster Termin: 22. November 2018

    mehr Infos

Um unsere Website laufend zu verbessern, verwenden wir Cookies. Durch die Nutzung dieser Website stimmen Sie der Verwendung von Cookies zu. Mehr Infos