Big Data

Speichertechnologien für Big-Data-Anwendungen, Teil 1

Werden die Speichersysteme für Big Data künftig ausreichen? Wenn alle Systeme Daten erzeugen und wenn davon wiederum alles oder eine Auswahl an Daten für komplexe Analysen herangezogen werden, wird es irgendwann knapp mit dem Speicherplatz. Bei weitem nicht alle Anwender der Segnungen der modernen IT setzen sich mit dieser Problematik auseinander.

Bei der Auswahl der Speichertechnik muss die Bedeutung der Daten viel stärker bedacht werden als bisher. Anhaltspunkte (siehe auch https://www.empolis.com/blog/industrial-analytics/industrie-4-0-und-wohin-mit-all-den-daten/) kann die folgende Abschätzung liefern:

  • Welche Daten sind „mission critical“, können also im Störungsfall den erfolgreichen Abschluss einer Aufgabe gefährden?
  • Welche Daten sind geschäftskritisch, können also im Störungsfall den Geschäftsbetrieb des Unternehmens gefährden?
  • Welche Daten sind „Gebrauchsdaten“ und somit weniger kritisch für das Unternehmen?
  • Welche Daten (und das betrifft vor allem die Sensordaten und andere Massendaten aus Industrie-4.0-Szenarien) müssen zwar erfasst, transportiert und verarbeitet, können aber nach der Auswertung verworfen werden?
  • Welche Daten können aus dem aktuellen IT-Betrieb herausgenommen, also beispielsweise archiviert werden?

Zuordnung von Daten zu den Speichersystemen

Eine Einordnung der Daten nach ihrem „technischen“ Charakter hilft bei der Auswahl der Speicherumgebung: Data Warehouses und Online-Datenbanken sind für die kritischen Daten sicherlich am sinnvollsten. Online-Transaktionssysteme und Streaming-Analytics-Lösungen sind für die Massendaten eine gute Idee.

Mit dieser ersten Einteilung ordnet man die Daten den Speichersystemen zu:

  • Online-Storage für alle kritischen Daten
  • Online- oder Nearline-Storage für die Gebrauchsdaten
  • Offline-Storage für Massendaten und Archivdaten sowie
  • Edge-Computing-Lösungen für die Verarbeitung von Daten am Ort des Entstehens.

Heutiges Fokusthema: Online-Storage für kritische Daten

In diesem Beitrag wollen wir uns mit dem ersten Bereich – dem Online-Storage für kritische Daten für Big-Data-Analysen – beschäftigen. Hier werden typischerweise große Mengen an Festplatten (HDD) mit drehenden Spindeln eingesetzt. Für HDD sprechen unter anderem das Verhältnis von Preis und Leistung, die gute Verfügbarkeit von Laufwerken im Markt und die hohe Standardisierung. Allerdings steigt mit der Menge der Daten und der Verarbeitungsgeschwindigkeit (zwei der Merkmale von Big-Data-Anwendungen) auch der Druck auf die Performance der Laufwerke, und bei den heute geforderten IOPS (Eingabe- und Ausgabeoperationen pro Sekunde) zeigen Festplatten mit drehenden Spindeln nun einmal eine schwächere Performance als Festspeicher, zum Beispiel die verschiedenen Flash-Speichertechnologien. Wo sich Teile bewegen, droht immer auch die Gefahr mechanischer Fehler und somit von Ausfällen von einzelnen Laufwerken. Aus diesen Gründen tendieren viele Anwender dazu, weit mehr als die benötige Kapazität bereitzustellen. Erfahrungen aus Projekten zeigen, dass hier einschließlich der Ersatzteillaufwerke für Totalausfälle teilweise über 150 Prozent der benötigten Kapazität bevorratet werden. Durch eine Verteilung von Daten auf viele Laufwerke soll eine Verbesserung der Performance entstehen und die vielen zusätzlichen Laufwerke können außerdem für parallele Zugriffe verwendet werden, die so die Performance des Gesamtsystems verbessern.

Schrittweise setzen sich für Online-Storage zur Speicherung geschäftskritischer Daten Flash-Speicher durch. Flash-Speicher erreichen eine höhere Speicherdichte, sind schneller und verbrauchen weniger Strom. Aus der Sicht der TCO ist es also durchaus sinnvoll, auf Flash-Speicher zu setzen. Dafür sind Flash-Speicher immer noch erheblich teurer als klassische Festplatten. Vor allem Einrichtungen und Firmen mit begrenzten Budgets – und das sind in Deutschland leider auch viele Mittelständler – bleiben gern bei Festplatten-Arrays.

Einen guten Kompromiss unter den Aspekten Kosten, Performance und Sicherheit bieten gemischte Systeme mit einer hierarchischen Kombination aus Flash-Speicher und HDDs. Hier können die Flash-Laufwerke die Performancesteigerung bringen, und die drehenden Platten liefern das Volumen. Ein Anwender aus der Lebensmittelindustrie hat damit bereits vor einiger Zeit eine Performancesteigerung erreicht, die sonst nur mit einem kompletten, aufwändigen Wechsel auf HANA erzielbar gewesen wäre.

Die Themen Nearline-, Offline- und Edge-Speicherlösungen werden in den kommenden Ausgaben dieses Newsletters erörtert.

Holm Landrock

Werden die Speichersysteme für Big Data künftig ausreichen? Wenn alle Systeme Daten erzeugen und wenn davon wiederum alles oder eine Auswahl an Daten für komplexe Analysen herangezogen werden, wird es irgendwann knapp mit dem Speicherplatz. Bei weitem nicht alle Anwender der Segnungen der modernen IT setzen sich mit dieser Problematik auseinander.

Bei der Auswahl der Speichertechnik muss die Bedeutung der Daten viel stärker bedacht werden als bisher. Anhaltspunkte (siehe auch https://www.empolis.com/blog/industrial-analytics/industrie-4-0-und-wohin-mit-all-den-daten/) kann die folgende Abschätzung liefern:

  • Welche Daten sind „mission critical“, können also im Störungsfall den erfolgreichen Abschluss einer Aufgabe gefährden?
  • Welche Daten sind geschäftskritisch, können also im Störungsfall den Geschäftsbetrieb des Unternehmens gefährden?
  • Welche Daten sind „Gebrauchsdaten“ und somit weniger kritisch für das Unternehmen?
  • Welche Daten (und das betrifft vor allem die Sensordaten und andere Massendaten aus Industrie-4.0-Szenarien) müssen zwar erfasst, transportiert und verarbeitet, können aber nach der Auswertung verworfen werden?
  • Welche Daten können aus dem aktuellen IT-Betrieb herausgenommen, also beispielsweise archiviert werden?

Zuordnung von Daten zu den Speichersystemen

Eine Einordnung der Daten nach ihrem „technischen“ Charakter hilft bei der Auswahl der Speicherumgebung: Data Warehouses und Online-Datenbanken sind für die kritischen Daten sicherlich am sinnvollsten. Online-Transaktionssysteme und Streaming-Analytics-Lösungen sind für die Massendaten eine gute Idee.

Mit dieser ersten Einteilung ordnet man die Daten den Speichersystemen zu:

  • Online-Storage für alle kritischen Daten
  • Online- oder Nearline-Storage für die Gebrauchsdaten
  • Offline-Storage für Massendaten und Archivdaten sowie
  • Edge-Computing-Lösungen für die Verarbeitung von Daten am Ort des Entstehens.

Heutiges Fokusthema: Online-Storage für kritische Daten

In diesem Beitrag wollen wir uns mit dem ersten Bereich – dem Online-Storage für kritische Daten für Big-Data-Analysen – beschäftigen. Hier werden typischerweise große Mengen an Festplatten (HDD) mit drehenden Spindeln eingesetzt. Für HDD sprechen unter anderem das Verhältnis von Preis und Leistung, die gute Verfügbarkeit von Laufwerken im Markt und die hohe Standardisierung. Allerdings steigt mit der Menge der Daten und der Verarbeitungsgeschwindigkeit (zwei der Merkmale von Big-Data-Anwendungen) auch der Druck auf die Performance der Laufwerke, und bei den heute geforderten IOPS (Eingabe- und Ausgabeoperationen pro Sekunde) zeigen Festplatten mit drehenden Spindeln nun einmal eine schwächere Performance als Festspeicher, zum Beispiel die verschiedenen Flash-Speichertechnologien. Wo sich Teile bewegen, droht immer auch die Gefahr mechanischer Fehler und somit von Ausfällen von einzelnen Laufwerken. Aus diesen Gründen tendieren viele Anwender dazu, weit mehr als die benötige Kapazität bereitzustellen. Erfahrungen aus Projekten zeigen, dass hier einschließlich der Ersatzteillaufwerke für Totalausfälle teilweise über 150 Prozent der benötigten Kapazität bevorratet werden. Durch eine Verteilung von Daten auf viele Laufwerke soll eine Verbesserung der Performance entstehen und die vielen zusätzlichen Laufwerke können außerdem für parallele Zugriffe verwendet werden, die so die Performance des Gesamtsystems verbessern.

Schrittweise setzen sich für Online-Storage zur Speicherung geschäftskritischer Daten Flash-Speicher durch. Flash-Speicher erreichen eine höhere Speicherdichte, sind schneller und verbrauchen weniger Strom. Aus der Sicht der TCO ist es also durchaus sinnvoll, auf Flash-Speicher zu setzen. Dafür sind Flash-Speicher immer noch erheblich teurer als klassische Festplatten. Vor allem Einrichtungen und Firmen mit begrenzten Budgets – und das sind in Deutschland leider auch viele Mittelständler – bleiben gern bei Festplatten-Arrays.

Einen guten Kompromiss unter den Aspekten Kosten, Performance und Sicherheit bieten gemischte Systeme mit einer hierarchischen Kombination aus Flash-Speicher und HDDs. Hier können die Flash-Laufwerke die Performancesteigerung bringen, und die drehenden Platten liefern das Volumen. Ein Anwender aus der Lebensmittelindustrie hat damit bereits vor einiger Zeit eine Performancesteigerung erreicht, die sonst nur mit einem kompletten, aufwändigen Wechsel auf HANA erzielbar gewesen wäre.

Die Themen Nearline-, Offline- und Edge-Speicherlösungen werden in den kommenden Ausgaben dieses Newsletters erörtert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.