Titel:

Eine Cluster-Strategie für Data Mining Probleme in Netzstrukturen

Startseite
english
  
ISBN: 3898641775   ISBN: 3898641775   ISBN: 3898641775   ISBN: 3898641775 
 
  Wir empfehlen:       
   
We are drowning in information,
but starving for knowledge

- John Naisbett

Einführung

In Unternehmen schlummern derzeit große Mengen an Daten und täglich kommen neue Daten hinzu oder es werden alte Daten aktualisiert. Die Daten werden IV-gestützt verwaltet z.B. in relationalen und geographischen Datenbanken, oder speziell strukturiert und aggregiert in Data Warehouses. In vielen Unternehmen wurden oder werden Daten nur gesammelt bzw. erfaßt. Die Analyse und Gewinnung von verwertbaren Informationen aus dem Datenbestand ist nur mit einem beträchtlichen Aufwand von Spezialisten möglich. Gerade die aus der Analyse der Daten resultierenden Informationen können für Unternehmen einen signifikanten Wettbewerbsvorteil darstellen, wenn die Informationen bei Entscheidungen oder Planungen geeignet berücksichtigt werden.

Das starke Anwachsen der Datenmenge macht es notwendig, die Analyse der Daten und die Bestimmung der in ihnen enthaltenen Informationen mittels intelligenter Methoden zu automatisieren. Diese Anforderungen an die Informatik werden im Forschungsgebiet Data Mining, häufig auch bezeichnet als Knowledge Discovery in Databases (KDD), behandelt.

Data Mining & Knowledge Discovery

Ziel von Data Mining oder Knowledge Discovery Methoden ist es, Regelmäßigkeiten in der Datenmenge und Abhängigkeiten zwischen Daten effizient und effektiv zu bestimmen und in einer verständlichen Form für den Anwender zu präsentieren (Abbildung 1-1). Darauf aufbauend können dann Trends und Prognosen ermittelt werden.

Abbildung 1-1: Ziel des Knowledge Discovery

Eine viel zitierte Definition stammt von Piatetsky-Shapiro und Frawley (nach [FPM 91]):

"Knowledge Discovery ist die nichttriviale Gewinnung von implizit vorhandenen, bisher unbekannten und potentiell nützlichen Informationen aus Daten" Der Ausdruck Data Mining stellt die Wichtigkeit der verborgenen Informationen, die in den Datenbeständen brach liegen und ans Tageslicht befördert werden sollen, in den Vordergrund: "Such data forms a potential gold mine of valuable business information1" [AIS 93] Hierzu zwei Beispiele aus dem Bereich der Analyse von Kunden-Kaufverhalten:
  • Die englische Lebensmittelkette "Safeway" fand mit Data Mining heraus, daß ein bestimmter Käse, der nur an Platz 209 der Verkaufsrangliste lag, hauptsächlich von ihren besten, umsatzstärksten Kunden gekauft wurde. Hätte das Unternehmen diesen umsatzmäßig unwichtigen Käse aus dem Sortiment genommen, hätte es damit seine beste Kundschaft verärgert. [CNC 97]
  • Die Gemischtwarenkette "Walmart" in den USA wollte mehr über das Kaufverhalten ihrer Kunden wissen. Hierzu wurden die Daten über die Verkäufe, die mittels Barcodelesern erfaßt wurden, mit einer Knowledge Discovery Methode analysiert. Ergebnis: Wer Grußkarten kauft, so fand man heraus, kauft auch Kosmetika (kein Ergebnis, das von einem Werbepsychologen vorausgesagt worden wäre!). Walmart räumte die Läden um und stellte Grußkarten neben Kosmetika. Der Erfolg: dreißig Prozent Umsatzwachstum bei beiden Produktgruppen. [Klu 97]
Diese Beispiele klassischer Data Mining Anwendungen zeigen die Möglichkeiten im Bereich von einfach strukturierten relationalen Datenbeständen auf. Derartige Analysen der Daten bzgl. auftretender Regelmäßigkeiten wurde durch konventionelle IV-Techniken bisher nur dahingehend unterstützt, daß Hypothesen, die von Menschen aufgestellt wurden, bestätigt oder verworfen werden konnten. Der Vorteil von Data Mining ist nun, daß automatisch Muster gefunden werden können, die dem Menschen trotz seinem Fachverständnis entgangen wären. Für diesen Bereich des Data Mining auf relational strukturierten Datenbeständen (z.B. in RDBs) existieren viele bestehende Algorithmen und Methoden, die z.T. in kommerzielle Analysewerkzeugen integriert wurden und in Unternehmen verwendet werden ([CHY 96], [HS 94], [Man 97], [Mox 96], [KDMine]).

Viele Datenbestände enthalten hingegen komplex strukturierte Daten, wie z.B. Datenobjekte in OODBSs, temporale und Transaktionsdaten, sowie Geodaten in Spatial DBSs bzw. Geographischen Informationssystemen. Gerade die Belange der Analyse von räumlichen Datenbeständen werden durch klassische Data Mining Verfahren nicht ausreichend unterstützt ([HKS 97], [Han 97]).

Spatial Data Mining

Räumliche Daten (spatial data) werden in Spatial DBSs (Geo-DBSs) und Geographischen Informationssystemen mittels räumlicher Datentypen und geometrischer, topologischer Beziehungen modelliert ([Gue 94], [EG 94]). Diese Strukturen sind naturgemäß komplexer als relationale Strukturen. Sie stellen damit, zusammen mit den komplexen räumlichen Indexstrukturen und Zugriffsmethoden, für das Problem des Extrahierens von Informationen höhere Anforderungen an die Data Mining Verfahren.

Ziel des räumlichen (Spatial) Data Mining ist die Gewinnung von implizit vorhandenen Kenntnissen, räumlichen Beziehungen oder anderen interessierenden Mustern in großen räumlichen Datenbeständen, die nicht explizit in Geodatenbanken gespeichert sind [KH 95]. Besonders interessant sind das Entdecken von Zusammenhängen zwischen Geo- und Sachdaten (nicht räumlichen Attributen), die Anfrageoptimierung und die Datenreorganisation in SDBMSs.

Erkenntnisse, die aus räumlichen Daten gewonnen werden, können sehr verschiedener Art sein, wie z.B. das Aufstellen charakteristischer Regeln, die Beschreibung von hervorstechenden Häufungen und Mustern, die Bestimmung räumlicher Verknüpfungen, etc.

Die bisherige Anwendungen von Data Mining auf räumliche Daten sind auf die klassischen Datentypen wie Punkte, Polygone, oder auch Regionen (siehe [Gue 94]) beschränkt. Die geographischen Objekte werden durch räumliche Datentypen sowie Beziehungen modelliert und zusammen mit den Sachinformationen im Mining-Algorithmus analysiert ([KAH 96], [Han 97], [EKS 97], [HKS 97]).

Beispiele verschiedener Zielrichtungen und Methoden sind:

  • Beschreibung von allgemeinen Wettermustern gemäß einer vorgegebenen, hierarchisch geordneten räumlichen Aufteilung eines Gebiets sowie nachfolgend die Bestimmung der Unterschiede in den Mustern. [HKS 97]
  • Ermittlung des Zusammenhangs zwischen Bevölkerungsverteilung und Arbeitslosenrate zur Bestimmung der Wirtschaftskraft einer Region und Erklärung der Abweichung vom theoretischen Erwartungswert. [EKS 97]
  • Bestimmung der Korrelation zwischen Charakteristiken bestimmter Gebiete; z.B. kann so die Beziehung gefunden werden, das Gebiete mit einer hohen Rate von im Ruhestand lebenden Menschen häufig stark korrelieren mit der Nähe von Bergen und Flüssen. [EKS 97]

Topologisches Data Mining

Speziell im Bereich der Analyse von Netzwerken, z.B. Telekommunikations-, Energieversorgungs- und Entsorgungsnetzen, liegt zusätzlich zur räumlichen Beziehung eine Topologie vor, die in den Analyseprozeß einbezogen werden muß, um relevante Kenntnisse zu erhalten.

Im folgenden wird das topologische, raumbezogene Data Mining stets eingebettet in einem räumlichen Kontext betrachtet und verkürzt als topologisches Data Mining bezeichnet. Zwei kurze Beispiele zum praktischen Einsatz von topologischem Data Mining:

  • Im Bereich des Geo-Marketing ist es interessant festzustellen, welche Restpotentiale ein Versorgungsnetz besitzt, diese Netzbereiche (Teilnetze) in Bezug zum betroffenen Kundenklientel zu erklären und darauf aufbauend strategische Maßnahmen zu ergreifen, die zu einer höheren Auslastung des Netzes führt.
  • In funkgestützten Telekommunikationsnetzen (Mobiltelefon) treten bei Schlechtwettergebieten wiederholt Versorgungslöcher im Übertragungsnetz auf. Der Netzbetreiber benötigt für einen störungsfreien Betrieb Informationen über den Zusammenhang dieser Löcher mit geographischen Gegebenheiten, der gewählten Versorgungsform oder dem Kundenverhalten.
Als motivierende Praxisbeispiele für die Anwendung von topologischem Data Mining sollen die nachfolgenden, detaillierteren Betrachtung zweier Problemstellungen aus dem Bereich von Energieversorgungsunternehmen (EVU) dienen:
  • In einem EVU sind die Aufwendungen für die Instandhaltung von elektrischen Transportnetzen mit dem Ziel der Sicherung der Stromversorgung in einer Region sehr hoch. Hier bedarf es in Zukunft sehr hoher Reinvestitionen der Netze und Anlagen.
Der Nutzungsvorrat ("funktionaler Restwert") der Betriebsmittel der elektrischen Netze und Anlagen ist zu klassifizieren und unter gesamtwirtschaftlichen Gesichtspunkten zu bewerten. Es geht um die allgemeine Frage "Wie hoch ist das Risiko für ein Unternehmen nicht zu investieren?".

Dazu bedarf es einer Netzbewertung zur Risikoabschätzung, welche die spezifischen Kennwerte des Netzes und die evtl. Störungskosten gegeneinander aufrechnet. Die Störung von Netzkomponenten (z.B. Umspannwerke) ist dabei durch andere Komponenten aufzufangen. Dies ist möglich, da die Komponenten einer Gruppe ausreichend Restpotentiale besitzen, häufig in Höhe von 50% bis zu 80%. Damit sind evtl. weniger Komponenten erforderlich als vorhanden. Im Fall der notwendigen Reinvestition wegen vorsorglicher Instandhaltung für eine oder mehrere Komponenten der Netzgruppe ist zu klären, ob die betreffenden Komponenten alle oder nur einzeln instandgesetzt und die übrigen evtl. stillgelegt werden können. Dazu bedarf es einer Risikoabschätzung und -bewertung bzgl. der Störungswahrscheinlichkeit einzelner und zusammengefaßter Netzkomponenten.

Hier kann nun ein topologischer Data Mining Algorithmus wertvolle Erkenntnisse liefern. Zunächst ist es möglich innerhalb des Netzes die Komponenten bzgl. ihrer probabilistischen, d.h. wahrscheinlichkeitsbezogenen, Ausfallrate zu klassifizieren, in dem diesbezügliche Häufungsmuster ermittelt werden. Mittels einer Charakterisierung der bestimmten Klassen kann nun eine Bestimmung der Ursachen für dieses Ausfallmuster erfolgen.

Darauf aufbauend kann die Risikoabschätzung je gefundener Klasse vorgenommen werden. Hierbei werden die räumlichen Randbedingungen, wie z.B. besonders wertvolle Kundengruppen (z.B. gewerbliche und Sondervertragskunden), die von den betrachteten Netzgruppen versorgt werden, zur Bewertung der Klassifikation verwendet. Dies führt zu einer aussagekräftigen Grundlage für die strategische Planung, die den Gesamterfolg eines Unternehmens gewährleistet.

Im Rahmen der Liberalisierung des Energiemarktes ist für EVU’s die Durchleitungsentgelte durch ihr eigenes Netz in Zukunft von wesentlicher Bedeutung (analoges gilt für den Bereich der Telekommunikation). Auch hierfür ist eine Netzbewertung im obigen Sinne sinnvoll, um die entstehenden Betriebskosten zu minimieren, die in die Berechnung für die Durchleitungsentgelte mit einzubeziehen sind. ¨

  • Allgemeines Ziel von Versorgungsunternehmen ist die wirtschaftliche, ressourcenschonende und störungsfreie Versorgung der Kunden mit den jeweiligen Versorgungsgütern (z.B. Strom, Gas, Wärme, oder Wasser). Hierzu sind u.a. Erhaltungsaufwendungen im Bereich der Versorgungsnetze durchzuführen, die möglichst kostengünstig und effizient erfolgen sollten. Neben der Pflege und Wartung sind auch vollständige Erneuerungen von Netzeinbauten und Leitungen notwendig, mit dem Ziel evtl. zukünftige Störfälle zu vermeiden. Dies ist in den vergangenen Jahrzehnten eher unregelmäßig und weitgehend zufalls-/störungsbedingt geschehen. Eine wichtige Aufgabe ist die Bewertung von Netzabschnitten hinsichtlich deren Ausfallsicherheit und darausfolgend die Einleitung von entsprechenden Erneuerungsmaßnahmen zur Sicherung der Energie- und Wasserversorgung.
Für diese Erneuerungsmaßnahmen in einer Netzregion sind die zu tätigenden Reinvestitionen zum Teil sehr hoch. Ein Ziel der Planungen ist daher die Bestimmung der potentiell erneuerungsbedürftigen "lose zusammenhängenden" Bereiche in einem Versorgungsnetz (z.B. Gas, Wasser), da für diese Netzabschnitte nur einmalige Erdarbeiten in einem topologisch und räumlich eng umrissenen Ortsbereich notwendig und somit kostensparend durchzuführen sind. Zudem ist die Beeinträchtigung des Verkehrs und der Bürger möglichst gering zu halten. Darüber hinaus sind Synergieeffekte in der Zusammenarbeit mit anderen Infrastruktureigentümern zu erzielen. Hier kann ein topologischer Data Mining Algorithmus wertvolle Hilfestellung sein, in dem diese "lose zusammenhängenden" Bereiche in einem Netz automatisiert identifiziert werden. ¨ Bei der Analyse von Netzen muß die räumliche Beziehung der Objekte und die Netztopologie in den Analyseprozeß einbezogen werden, um zu relevanten Ergebnissen zu gelangen.

Zum Beispiel werden in Telekommunikationsnetzen von jeder Komponente Fehlerinformationen (Alarmmeldungen) an die Leitzentrale weitergeleitet, wobei das Operating auf verschiedene Fehlerzustände sofortige Maßnahmen zur Schadenbegrenzung oder -vermeidung einleiten muß. In [HKMRT 96] wird ein Data Mining Algorithmus beschrieben, mit dem die Alarmdaten auf Regelmäßigkeiten analysiert werden. Es werden z.B. Regeln der Art "Falls ein Alarmtyp A vor einem des Typs B, und C vor D auftritt (in einer bestimmten Zeitspanne), dann wird mit 80% Wahrscheinlichkeit die Fehlersituation vom Typ E auftreten".

Diese Information stellt einen wertvollen Erkenntnisgewinn für das Netzwerkmanagement dar. Ohne Data Mining kristallisieren sich derartige Zusammenhänge erst nach langjähriger Beschäftigung mit einer Thematik heraus (in vielen Fällen nur in Form von Erfahrungswerten). Im Operating eines Netzwerk, mit ständig wechselnden technischen Komponenten, ist die Zeitspanne sogar meist zu kurz, um überhaupt zu gesicherten Erkenntnissen zu kommen.

Der Algorithmus in [HKMRT 96] generalisiert die Fehlerinformationen zur Ermittlung der Regeln. Leider wird nur implizit die Netztopologie verwendet und die zusätzlichen räumlichen Einflußfaktoren bleiben vollständig unberücksichtigt. Aus diesen Umgebungsdaten lassen sich weitergehende Informationen ableiten, welche die räumliche Lage, die topologische Struktur und die Sachdaten berücksichtigen.

Abschließend kann festgehalten werden, daß die existierenden Data Mining Ansätze die spezifischen Auswertungsmöglichkeiten topologischer Strukturen im Zusammenhang mit räumlichen Informationen nicht berücksichtigen.

Ziele, Nutzen und methodischer Ansatz

Ziel dieser Arbeit ist es, auf topologischen, raumbezogene Strukturen einen Ansatz des Data Mining zu finden und zu realisieren. Dabei geht es um die Gewinnung von implizit vorhandenen Kenntnissen, topologisch-räumlichen Beziehungen oder anderen interessierenden Mustern, die nicht explizit in der Datenbasis gespeichert sind.

Speziell werden hier zwei Fragestellungen betrachtet:

  • Was sind, bzw. Wo liegen die Häufungen (Cluster) oder Muster im Datenbestand?
  • Warum existieren diese Muster?
Hierzu wird ein zweistufiges Vorgehen gewählt:
  1. Zunächst werden topologische Regelmäßigkeiten bzw. Muster identifiziert, die zu einer Klassifikation der betrachteten raumbezogenen, topologischen Objekte führt und die Frage nach dem Was/Wo beantwortet.
  2. Basierend auf diesen Ergebnissen werden die Charakteristiken der Klassen bzw. Muster bestimmt. Dies dient der Suche nach der Ursache der entdeckten Muster, also als Vorstufe zur Beantwortung der Frage Warum?

  3. Die Antwort einem, wenn auch "intelligenten", Algorithmus zuzutrauen ist m.E. nicht angemessen. Hier ist und bleibt der analytische Sachverstand eines Fachmanns gefragt, dessen weitere Analysen durch die vorliegenden Mining-Ergebnisse unterstützt werden.
Wie aus den einleitenden und motivierenden Beispielen des vorhergehenden Abschnitts zu entnehmen ist, liegen konkrete Anwendungsgebiete im Bereich der Analyse und Bewertung von Netzen verschiedenster Art, wie z.B. in Transport- und Verteilungsnetzen von Energieversorgungsunternehmen oder auch in leitungsgebundenen und funkgestützten Telekommunikationsnetzen.

Der Nutzen besteht in einer effizienteren und insbesondere effektiveren Analyse der Daten und dem daraus resultierenden Erkenntnisgewinn. Dies kann für den Anwender bzw. das Unternehmen gerade nach der Liberalisierung der Märkte erhebliche Vorteile im nationalen wie internationalen Wettbewerb bringen.

Das Ziel dieser Arbeit ist, im Bereich der anwendungsorientierten Grundlagenforschung in der Praktischen Informatik, ein entsprechend anwendbares Verahren zu entwickeln und dieses mit realen Daten zu evaluieren. Dazu wird zunächst im zweiten Kapitel ein Überblick über die verwendete Terminologie und einige existierende Data Mining Verfahren gegeben. Anschließend wird im dritten Kapitel das Topologische Data Mining definiert und ein konkretes Cluster-Verfahren (TopClu) entwickelt. Im vierten und fünften Kapitel wird das Design, Realisisierungsaspekte und ein Benutzerhandbuch zum entwickelten Prototyp  dokumentiert, welcher zur Evaluation des TopClu-Verfahrens verwendet wird. Im sechsten Kapitel wird die Effektivität von TopClu im Rahmen einer Fallstudie zur topologischen Segmentierung auf Netzstrukturen untersucht. Abschließend wird im siebten Kapitel eine Bewertung des Verfahrens gegeben, die Einordnung von TopClu in den Gesamtkontext des Knowledge Discovery Prozeß auf Netzstrukturen vorgenommen und ein Ausblick auf weitere Entwicklungspotentiale aufgezeigt.

  
Datenbanktechnologie für Data-Warehouse-Systeme. (Taschenbuch)
von Wolfgang Lehner
Siehe auch:
Data-Warehouse-Systeme. Architektur, Entwicklung, Anwendung
von Andreas Bauer
Business Intelligence - Grundlagen und praktische Anwendungen. Eine Einführung in die IT-basierte Managementunterstützung
von Hans-Georg Kemper
The Data Warehouse Toolkit. The Complete Guide to Dimensional Modelling.: The Complete Guide to Dimensional Modeling
von Ralph Kimball
Analytische Informationssysteme. Business Intelligence-Technologien und -Anwendungen: Business Intelligence-Technologien Und -Anwendungen
von Peter Chamoni
 
    
     

Zurück zur Themenseite:
ScientificPublication.com/Startseite/Informatik

Das Setzen von Verweisen (Links) auf diese Seite ist gestattet und bedarf keine vorherige Absprache.
   
  Startseite  |  english  |  Bookmark setzen  |  Webseite weiterempfehlen  |  Copyright ©  |  Impressum