Suche nach der passenden Big Data Mining-Lösung

Einige sind der Ansicht, dass Big Data die Analysewelt verändern wird und dass Hadoop die de-facto-Plattform für die verteilte Speicherung und Handhabung strukturierter und unstrukturierter großer Datensätze geworden ist. Gleichzeitig erkennen Unternehmen, dass das reine Speichern von Daten zum Selbstzweck keinen Wert hat. Erst die Analyse der Daten transformiert diese in handlungsfähige Einblicke. Data Mining und prädiktive Analytics sind die höchste Form der Analyse: Sie zeigen nicht mehr nur auf, was bereits in der Vergangenheit passiert ist, sondern ebenso, warum etwas passiert ist oder was als nächstes passieren wird.

Die RapidMiner-Plattform ist bestens dazu geeignet, unstrukturierte Daten wie Textdateien, Web-Traffic-Logs oder sogar Bilder zu verarbeiten. So gesehen stellt die Vielfalt von Big Data keine neuen Herausforderungen an die Plattform. Aber es ist zu diskutieren, wie das Volumen von Big Data einfach bewältigt werden kann – ohne dass dafür auch nur eine Zeile Code geschrieben werden müsste.

Entscheidend für eine Analyse, die hilft, das Maximum an Information aus Big Data zu ziehen und basierend darauf wohlüberlegte Geschäftsentscheidungen zu treffen, ist die Anschaffung der richtigen Lösung. Bei der Wahl einer Big-Data-Mining-Software sollte man grundsätzlich folgende Punkte berücksichtigen.

Inhaltsverzeichnis

1. Performance/Big Data

Heutzutage fallen in den meisten Unternehmen riesige Mengen an Daten an, die es mit der Data-Mining-Lösung auszuwerten gilt. Zudem muss auch bei parallelem Zugriff mehrerer User eine hohe Performance gewährleistet sein. Moderne Analysetools können in Kombination mit einer verteilten Datenhaltung Echtzeiteinblicke in Big Data liefern und erlauben eine enge Verzahnung mit operativen Geschäftsprozessen. Mit einem leistungsstarken Analyseserver laufen Analyseprozesse rund um die Uhr im Hintergrund, sodass die Performance nicht beeinträchtigt wird und eine hohe Anzahl gleichzeitiger Nutzer bedient werden kann.

2. Engine

Bei der Wahl der Analyselösung ist auch die Betrachtung der Analyse-Engines, die unterstützt werden, notwendig. Hier gilt es, drei Arten zu unterscheiden.

In-Memory
In-Database
In-Hadoop

Die In-Memory-Engine wie sie bspw. in RapidMiner existiert, ist im allgemeinen der schnellste Ansatz – der jedoch nicht greift, sobald die Größe des Datensatzes die Speicherkapazität der Maschine übersteigt. Das Trainieren eines Modells mit Millionen Datenpunkten benötigt hier nur Sekunden oder Minuten. Auf guter Hardware liegt die Grenze der Datensatzgröße für diese schnelle Engine bei ca. 100 Mio. Datenpunkten.

Die In-Database-Engine ist wesentlich langsamer, skaliert dafür jedoch bis zu einer unbegrenzten Datensatzgröße. Sie ist fast so schnell wie die In-Memory-Datenbank für kleinere Datensätze, wird jedoch ab einer Größe von mehr als 20 Mio. Datenpunkten relativ langsam. Für Datensätze, die nicht mehr mit der In-Memory-Technologie bewältigt werden können (d.h. in der Regel ab 100 Mio. Datenpunkten) ist diese Datenbank die beste Option, sofern kein Hadoop-Cluster verfügbar ist. Die In-Database-Variante ist sicherlich der beste Kompromiss zwischen Skalierbarkeit und Einfachheit in der Einrichtung bzw. Nutzung.

Die In-Hadoop-Engine ist bei drei Knoten in den Hadoop-Clustern und bei kleinen Datensätzen unglaublich langsam, skaliert jedoch bei größeren Datensätzen besser als die In-Database-Engine. Dies kann noch verbessert werden, indem dem Hadoop-Cluster weitere Rechenknoten hinzugefügt werden. Da der Overhead für die meisten Datensätze üblicher Größe so riesig ist, sollte man Hadoop ausschließlich als zugrundeliegende Maschine für Datensatzgrößen von 500 Mio. Datenpunkten und mehr einsetzen, wenn die Laufzeit gleichzeitig eine entscheidende Rolle spielt. Eine der Hauptnachteile bei Hadoop-Clustern sind die höheren Kosten für Implementierung und Infrastruktur. Zudem darf nicht vergessen werden, dass Hadoop in manchen Punkten noch eine nicht ausgereifte Technologie ist.

3. Flexibilität

Eine Vielzahl an Methoden für Datenintegration, Datentransformation, Modellierung und Visualisierung ist die Voraussetzung, um verschiedenste Analyseprozesse fahren zu können. Die ausgewählte Analyselösung sollte möglichst auf jeder gängigen Plattform und jedem Betriebssystem laufen und einen Austausch von Analyseprozessen zwischen den Mitarbeitern gewährleisten. Zudem ist es wichtig, dass es offene APIs gibt, über die die Lösung jederzeit um eigene Plugins oder Operatoren erweitert werden kann.

4. Integrationsfähigkeit

Bei der Entscheidung für eine Big-Data-Mining-Lösung ist es wichtig, darauf zu achten, dass diese sich einfach in die bestehende Business Intelligence (BI)-Architektur integrieren lässt. Sie sollte kompatibel mit den vorhandenen Systemen sein und sich unkompliziert in Data Warehouse und Prozesse einbinden lassen.

5. Support

Der Anbieter, für den man sich entscheidet, sollte Mitarbeiterschulungen vor Ort durchführen und Trainingsmaterial für Endnutzer bzw. Data-Mining-Experten zur Verfügung stellen. Service Level Agreements sollten regelmäßige Bug Fixes und die Beantwortung von Support-Anfragen innerhalb einer Zeitspanne, die dem jeweiligen Geschäftsmodell entspricht, umfassen.

6. Lizenzmodell

Sinnvoll ist es, sich vorab - neben den Funktionen der Lösung - mit der Frage zu beschäftigen, welches Lizenzmodell das passendste ist. Inzwischen wird bei OS-Software neben einer freien "Community Edition" meist auch eine kostenpflichtige Version mit Garantien angeboten. Die Vorteile von Open Source liegen in der Kostengünstigkeit, der Integrationsfähigkeit, dem in der Regel hochwertigen Support, der kontinuierlichen Weiterentwicklung des Produkts durch eine agile Community sowie der Zukunftssicherheit durch Anbieterunabhängigkeit. Eine quelloffene Lösung bietet bspw. die Möglichkeit, dass auch temporäre Anwender wie Aushilfen oder externe Zulieferer das System kurzfristig ohne Lizenz nutzen können.

7. Social Media

In fast jeder Branche spielen facebook, twitter & Co eine zunehmend große Rolle, entsprechend ist es unerlässlich, diese Social-Media-Kanäle in die Analyse mit einzubinden. Daher sollte die ausgewählte Big-Data-Mining-Lösung in der Lage sein, Daten aus verschiedensten Quellen zusammenzuführen. Sinnvoll ist eine Lösung, die Machine-Based-Learning, z.B. in Form einer automatischen Kategorisierung von Texten, bietet und in der Lage ist, die gefundenen Informationen wie bspw. User Generated Content (UGC) aussagekräftig auszuwerten.

8. Partner

Last but not Least: Die Implementierung einer Big-Data-Mining-Lösung über einen Partner des Software-Anbieters ist zwar nicht obligatorisch - dennoch sinnvoll. Denn oftmals verfügen Partner über das notwendige Know-how, wissen um die technischen Herausforderungen bzw. branchenspezifischen Anforderungen und haben die Ressourcen, um auf diese einzugehen. Auch im Vorfeld bietet es sich an, einen Partner zu Rate zu ziehen, um bestimmte Parameter oder individuelle Anpassungsmöglichkeiten der Software zu diskutieren.

Dr. Ingo Mierswa, Geschäftsführer der Rapid-I GmbH