|
||||||||||||||
| ISBN: 3898641775 ISBN: 3898641775 ISBN: 3898641775 ISBN: 3898641775 | ||||||||||||||
|
|
Wir empfehlen: | |||||||||||||
EinführungIn Unternehmen schlummern derzeit große Mengen an Daten und täglich kommen neue Daten hinzu oder es werden alte Daten aktualisiert. Die Daten werden IV-gestützt verwaltet z.B. in relationalen und geographischen Datenbanken, oder speziell strukturiert und aggregiert in Data Warehouses. In vielen Unternehmen wurden oder werden Daten nur gesammelt bzw. erfaßt. Die Analyse und Gewinnung von verwertbaren Informationen aus dem Datenbestand ist nur mit einem beträchtlichen Aufwand von Spezialisten möglich. Gerade die aus der Analyse der Daten resultierenden Informationen können für Unternehmen einen signifikanten Wettbewerbsvorteil darstellen, wenn die Informationen bei Entscheidungen oder Planungen geeignet berücksichtigt werden.Das starke Anwachsen der Datenmenge macht es notwendig, die Analyse der Daten und die Bestimmung der in ihnen enthaltenen Informationen mittels intelligenter Methoden zu automatisieren. Diese Anforderungen an die Informatik werden im Forschungsgebiet Data Mining, häufig auch bezeichnet als Knowledge Discovery in Databases (KDD), behandelt. Data Mining & Knowledge DiscoveryZiel von Data Mining oder Knowledge Discovery Methoden ist es, Regelmäßigkeiten in der Datenmenge und Abhängigkeiten zwischen Daten effizient und effektiv zu bestimmen und in einer verständlichen Form für den Anwender zu präsentieren (Abbildung 1-1). Darauf aufbauend können dann Trends und Prognosen ermittelt werden.
Eine viel zitierte Definition stammt von Piatetsky-Shapiro und Frawley (nach [FPM 91]):
Viele Datenbestände enthalten hingegen komplex strukturierte Daten, wie z.B. Datenobjekte in OODBSs, temporale und Transaktionsdaten, sowie Geodaten in Spatial DBSs bzw. Geographischen Informationssystemen. Gerade die Belange der Analyse von räumlichen Datenbeständen werden durch klassische Data Mining Verfahren nicht ausreichend unterstützt ([HKS 97], [Han 97]). Spatial Data MiningRäumliche Daten (spatial data) werden in Spatial DBSs (Geo-DBSs) und Geographischen Informationssystemen mittels räumlicher Datentypen und geometrischer, topologischer Beziehungen modelliert ([Gue 94], [EG 94]). Diese Strukturen sind naturgemäß komplexer als relationale Strukturen. Sie stellen damit, zusammen mit den komplexen räumlichen Indexstrukturen und Zugriffsmethoden, für das Problem des Extrahierens von Informationen höhere Anforderungen an die Data Mining Verfahren.Ziel des räumlichen (Spatial) Data Mining ist die Gewinnung von implizit vorhandenen Kenntnissen, räumlichen Beziehungen oder anderen interessierenden Mustern in großen räumlichen Datenbeständen, die nicht explizit in Geodatenbanken gespeichert sind [KH 95]. Besonders interessant sind das Entdecken von Zusammenhängen zwischen Geo- und Sachdaten (nicht räumlichen Attributen), die Anfrageoptimierung und die Datenreorganisation in SDBMSs. Erkenntnisse, die aus räumlichen Daten gewonnen werden, können sehr verschiedener Art sein, wie z.B. das Aufstellen charakteristischer Regeln, die Beschreibung von hervorstechenden Häufungen und Mustern, die Bestimmung räumlicher Verknüpfungen, etc. Die bisherige Anwendungen von Data Mining auf räumliche Daten sind auf die klassischen Datentypen wie Punkte, Polygone, oder auch Regionen (siehe [Gue 94]) beschränkt. Die geographischen Objekte werden durch räumliche Datentypen sowie Beziehungen modelliert und zusammen mit den Sachinformationen im Mining-Algorithmus analysiert ([KAH 96], [Han 97], [EKS 97], [HKS 97]). Beispiele verschiedener Zielrichtungen und Methoden sind:
Topologisches Data MiningSpeziell im Bereich der Analyse von Netzwerken, z.B. Telekommunikations-, Energieversorgungs- und Entsorgungsnetzen, liegt zusätzlich zur räumlichen Beziehung eine Topologie vor, die in den Analyseprozeß einbezogen werden muß, um relevante Kenntnisse zu erhalten.Im folgenden wird das topologische, raumbezogene Data Mining stets eingebettet in einem räumlichen Kontext betrachtet und verkürzt als topologisches Data Mining bezeichnet. Zwei kurze Beispiele zum praktischen Einsatz von topologischem Data Mining:
Dazu bedarf es einer Netzbewertung zur Risikoabschätzung, welche die spezifischen Kennwerte des Netzes und die evtl. Störungskosten gegeneinander aufrechnet. Die Störung von Netzkomponenten (z.B. Umspannwerke) ist dabei durch andere Komponenten aufzufangen. Dies ist möglich, da die Komponenten einer Gruppe ausreichend Restpotentiale besitzen, häufig in Höhe von 50% bis zu 80%. Damit sind evtl. weniger Komponenten erforderlich als vorhanden. Im Fall der notwendigen Reinvestition wegen vorsorglicher Instandhaltung für eine oder mehrere Komponenten der Netzgruppe ist zu klären, ob die betreffenden Komponenten alle oder nur einzeln instandgesetzt und die übrigen evtl. stillgelegt werden können. Dazu bedarf es einer Risikoabschätzung und -bewertung bzgl. der Störungswahrscheinlichkeit einzelner und zusammengefaßter Netzkomponenten. Hier kann nun ein topologischer Data Mining Algorithmus wertvolle Erkenntnisse liefern. Zunächst ist es möglich innerhalb des Netzes die Komponenten bzgl. ihrer probabilistischen, d.h. wahrscheinlichkeitsbezogenen, Ausfallrate zu klassifizieren, in dem diesbezügliche Häufungsmuster ermittelt werden. Mittels einer Charakterisierung der bestimmten Klassen kann nun eine Bestimmung der Ursachen für dieses Ausfallmuster erfolgen. Darauf aufbauend kann die Risikoabschätzung je gefundener Klasse vorgenommen werden. Hierbei werden die räumlichen Randbedingungen, wie z.B. besonders wertvolle Kundengruppen (z.B. gewerbliche und Sondervertragskunden), die von den betrachteten Netzgruppen versorgt werden, zur Bewertung der Klassifikation verwendet. Dies führt zu einer aussagekräftigen Grundlage für die strategische Planung, die den Gesamterfolg eines Unternehmens gewährleistet. Im Rahmen der Liberalisierung des Energiemarktes ist für EVUs die Durchleitungsentgelte durch ihr eigenes Netz in Zukunft von wesentlicher Bedeutung (analoges gilt für den Bereich der Telekommunikation). Auch hierfür ist eine Netzbewertung im obigen Sinne sinnvoll, um die entstehenden Betriebskosten zu minimieren, die in die Berechnung für die Durchleitungsentgelte mit einzubeziehen sind. ¨
Zum Beispiel werden in Telekommunikationsnetzen von jeder Komponente Fehlerinformationen (Alarmmeldungen) an die Leitzentrale weitergeleitet, wobei das Operating auf verschiedene Fehlerzustände sofortige Maßnahmen zur Schadenbegrenzung oder -vermeidung einleiten muß. In [HKMRT 96] wird ein Data Mining Algorithmus beschrieben, mit dem die Alarmdaten auf Regelmäßigkeiten analysiert werden. Es werden z.B. Regeln der Art "Falls ein Alarmtyp A vor einem des Typs B, und C vor D auftritt (in einer bestimmten Zeitspanne), dann wird mit 80% Wahrscheinlichkeit die Fehlersituation vom Typ E auftreten". Diese Information stellt einen wertvollen Erkenntnisgewinn für das Netzwerkmanagement dar. Ohne Data Mining kristallisieren sich derartige Zusammenhänge erst nach langjähriger Beschäftigung mit einer Thematik heraus (in vielen Fällen nur in Form von Erfahrungswerten). Im Operating eines Netzwerk, mit ständig wechselnden technischen Komponenten, ist die Zeitspanne sogar meist zu kurz, um überhaupt zu gesicherten Erkenntnissen zu kommen. Der Algorithmus in [HKMRT 96] generalisiert die Fehlerinformationen zur Ermittlung der Regeln. Leider wird nur implizit die Netztopologie verwendet und die zusätzlichen räumlichen Einflußfaktoren bleiben vollständig unberücksichtigt. Aus diesen Umgebungsdaten lassen sich weitergehende Informationen ableiten, welche die räumliche Lage, die topologische Struktur und die Sachdaten berücksichtigen. Abschließend kann festgehalten werden, daß die existierenden Data Mining Ansätze die spezifischen Auswertungsmöglichkeiten topologischer Strukturen im Zusammenhang mit räumlichen Informationen nicht berücksichtigen. Ziele, Nutzen und methodischer AnsatzZiel dieser Arbeit ist es, auf topologischen, raumbezogene Strukturen einen Ansatz des Data Mining zu finden und zu realisieren. Dabei geht es um die Gewinnung von implizit vorhandenen Kenntnissen, topologisch-räumlichen Beziehungen oder anderen interessierenden Mustern, die nicht explizit in der Datenbasis gespeichert sind.Speziell werden hier zwei Fragestellungen betrachtet:
Die Antwort einem, wenn auch "intelligenten", Algorithmus zuzutrauen ist m.E. nicht angemessen. Hier ist und bleibt der analytische Sachverstand eines Fachmanns gefragt, dessen weitere Analysen durch die vorliegenden Mining-Ergebnisse unterstützt werden. Der Nutzen besteht in einer effizienteren und insbesondere effektiveren Analyse der Daten und dem daraus resultierenden Erkenntnisgewinn. Dies kann für den Anwender bzw. das Unternehmen gerade nach der Liberalisierung der Märkte erhebliche Vorteile im nationalen wie internationalen Wettbewerb bringen. Das Ziel dieser Arbeit ist, im Bereich der anwendungsorientierten Grundlagenforschung in der Praktischen Informatik, ein entsprechend anwendbares Verahren zu entwickeln und dieses mit realen Daten zu evaluieren. Dazu wird zunächst im zweiten Kapitel ein Überblick über die verwendete Terminologie und einige existierende Data Mining Verfahren gegeben. Anschließend wird im dritten Kapitel das Topologische Data Mining definiert und ein konkretes Cluster-Verfahren (TopClu) entwickelt. Im vierten und fünften Kapitel wird das Design, Realisisierungsaspekte und ein Benutzerhandbuch zum entwickelten Prototyp dokumentiert, welcher zur Evaluation des TopClu-Verfahrens verwendet wird. Im sechsten Kapitel wird die Effektivität von TopClu im Rahmen einer Fallstudie zur topologischen Segmentierung auf Netzstrukturen untersucht. Abschließend wird im siebten Kapitel eine Bewertung des Verfahrens gegeben, die Einordnung von TopClu in den Gesamtkontext des Knowledge Discovery Prozeß auf Netzstrukturen vorgenommen und ein Ausblick auf weitere Entwicklungspotentiale aufgezeigt. |
||||||||||||||
![]() | ||||||||||||||
|
Zurück zur Themenseite: ScientificPublication.com/Startseite/Informatik Das Setzen von Verweisen (Links) auf diese Seite ist gestattet und bedarf keine vorherige Absprache. | ||||||||||||||
| Startseite | english | Bookmark setzen | Webseite weiterempfehlen | Copyright © | Impressum | ||||||||||||||