Was so alles schief gehen kann … und geht!

 

Auf dieser Seite werden anonymisierte Vorfälle gesammelt, die eigentlich nicht passieren hätten dürfen bzw. die Problemlagen im Kleinen aufzeigen, welche jedoch Rückschlüsse auf die möglichen weitreichenden Folgen eines Blackouts zulassen.

„Ein kluger Mann macht nicht alle Fehler selbst.
Er gibt auch anderen eine Chance.“

Winston Churchill

Normal Accident Theory

(Auszug WikipediaMikadostäbchenCharles Perrow, US Organisationstheoretiker und Soziologe, wurde in den 1980er durch Normal Accidents: Living With High Risk Technologies bekannt. Darin entwickelt er die Vorstellung, dass katastrophale Ereignisverkettungen in komplexen Systemen wahrscheinlich nicht vollständig bzw. nicht dauerhaft zu vermeiden sind.

Im Kern der Überlegungen Perrows steht die Theorie der Normalen Katastrophen. Katastrophenartige Unfälle sind demnach insbesondere in eng gekoppelten und komplexen Systemen unvermeidbar. In diesen Fällen kann einzig die Interaktion multipler Fehler den Unfall erklären. Perrows Theorie sagt voraus, dass Fehler auf verschiedenartige und unvorhergesehene Weisen auftreten können, die fast unmöglich vorhersagbar sind (Nichtlinearität).

Die wesentliche Differenz besteht für Perrow in den industriellen und technischen Umwelten der Organisation. Je nach Kerntechnologie variiert die Wahrscheinlichkeit, mit der eine undurchschaubare und deswegen schwer zu kontrollierende Ereignisverkettung eintritt, an deren Ende ein katastrophales Ereignis stehen kann.

Hauptursachen für Katastrophen

  • Mangelhafte Fehlerfreundlichkeit
  • Trotz, wenn nicht sogar wegen der hohen Sicherheitstechnik
  • Menschliches Fehlverhalten – Übersteuerung

Jedoch ist dabei zu berücksichtigen:

Es wird also klar, daß Unfälle und Katastrophen nicht in Einzelfällen und nur aufgrund von menschlichem Versagens auftreten. Sondern die Wahrscheinlichkeit eines Störfalls, der zu einem Unfall oder einer Katastrophe wird, steigt mit zunehmender Komplexität und Kopplung eines Systems. Je komplexer und je enger gekoppelt ein System ist, umso effizienter ist es auch. Aber in gleichem Maße steigt die Wahrscheinlichkeit eines unvermeidbaren Unfalls, der aufgrund der komplexen Interaktion der Komponenten nicht oder kaum beherrschbar ist. Katastrophen sind also normal, ihnen kann nur versucht werden durch Antizipation der möglichen Folgen in alle Richtungen entgegenzuwirken. Aufgrund der unvorhersehbaren Wechselwirkungen wird man sie aber nie sicher machen können. Wenn Unfälle aber unvermeidbar sind, muß man sich entscheiden bei welchem Nutzen man, welche Risiken, in Kauf nehmen will. (Quelle: Ortwin Renn – Normale Katastrophen nach Perrow, 2001; siehe auch Das Risikoparadox)

Daher führt die zunehmende technische Vernetzung zu steigenden systemischen Risiken mit kaum absehbaren Auswirkungen, was insbesondere bei der Auseinandersetzung mit dem Thema „Blackout“ klar wird. Man öffnet hier die Büchse der Pandora.

Murphy-Liste

Im weitesten Sinne handelt es sich hier auch um eine Murphy-Liste, die sich an Murphy’s Law orientiert – „Alles, was schiefgehen kann, wird auch schiefgehen“. Es ist eine auf den US-amerikanischen Ingenieur Edward A. Murphy, jr. zurückgehende Lebensweisheit, die eine Aussage über menschliches Versagen bzw. über Fehlerquellen in komplexen Systemen macht.18

Sollten Sie einen Beitrag beisteuern können, dann schicken Sie bitte einfach ein Mail an kontakt@saurugg.net. Danke!

Organisatorische Mängel

fragezeichenOrganisatorische Mängel und Fehlentscheidungen spielen fast immer eine entscheidende Rolle und sind daher auch in den nachfolgenden Abschnitten direkt angeführt.

Systemzustand kann nicht überprüft werden, weil kein Anlageverantwortlicher vor Ort ist …

Folgen: Beispielsweise können NOT-HALTs nicht „entschärft“ werden

Dieser Punkt unterstreicht die Notwendigkeit der aktiven Einbindung der MitarbeiterInnen in eine Blackout-Vorbereitung!

Keine definierten Anleitungen für das Herunterfahren und Neustarten

  • Wartungspersonal weiß nicht was zu tun ist
  • Systeme werden zum Herunterfahren vergessen; Folgen: harte Abschaltungen, inkonsistente Daten und Systeme
  • Systeme werden nicht richtig eingeschaltet/wieder hochgefahren (die Reihenfolge ist wichtig!)

Keine realitätsnahen Übungen

Immer wieder zeigt sich, dass viele Fehler durch realitätsnahe Übungen rechtzeitig entdeckt und beseitigt werden könnten. Das beginnt im Kleinen, ob etwa Geräte an der richtigen Steckdose angeschlossen sind und setzt sich fort bis zu realitätsnahen Krisen(stabs)übungen, um geänderte Abläufe und Rollen zu üben und einzuspielen.

Gerade Krisenorganisationen erfordern ein anderes Denken und Handeln (hierarchisch), dass im Alltag meist nicht zum Einsatz kommt, aber in der Krisenbewältigung ganz entscheidend ist. Viele Fehler passieren darüber hinaus durch eine nicht vorbereitete Krisenkommunikation, die sich in der Regel nicht mit der gewöhnlichen Öffentlichkeitsarbeit/PR deckt.

Sonstige Erfahrungen

  • Gewartete Schaltanlagen werden nicht mehr eingeschaltet (vergessen..?)
  • Man findet defekte Schattensysteme von denen man keine Ahnung hat…aber auch keine Backups… und die Platten sind hinüber.. (aber das passiert nicht so oft)
  • Wartungspersonal kommt nicht zurecht alle Probleme auf einmal zu lösen (Gleichzeitigkeitsbedarf!!)

Infrastrukturversagen

Krankenhausversorgung

Das AKH kann sich beliebig lange mit Strom selbst versorgen , solange Diesel nachgeliefert werden kann. Mit den vorhandenen 2×100.000 l ist ein Betrieb über 3 Tage möglich.
Das Problem liegt im Bereich der Versorgung mit medizinischen Ver-und Gebrauchsgütern, Dialysat, Dialysatoren, Medikamenten (Antibiotika , Insulin, uvm.), Essen, Wasser ist in Notbecken vorhanden. Offen ist die Frage der Ver – und Entsorgung mit radioaktiven Stoffen, frischer Wäsche oder Müll ( tgl. ca 10 Tonnen ). Dann aber kommt noch die Entsorgung von Leichen oder Leichenteilen dazu und unendlich viel mehr.

Kanalisation – Dresden

Elbehochwasser vor ca. 10 Jahren in Dresden und die Uniklinik, die vom Kanalsystem her total außer Funktion gesetzt wurde. Durch den Eintritt des Hochwassers in das Kanalsystem von Dresden hat nichts mehr funktioniert außer Selbsthilfe und Privatinitiative. Das Krisenmanagement des Landes und der Kommune war paralysiert. Außer Nicht – und Fehlentscheidungen gab es NICHTS. Stimmt nicht ganz : Das gesamte Klinikpersonal bekam wegen Nichteinhaltung des Katastrophenschutzplans , der am wenigsten funktionierte, eine Anzeige bei der Staatsanwaltschaft. Diese blieb jedoch ohne Folgen.

Kanalisation – Unterschätzte Gefahr!?

Auch ein österreichisches Unternehmen berichtete von den Folgen einer fehlenden bzw. einer schadhaften Rückstauklappe, die den Rückfluss von Abwässern aus der Kanalisation in das Gebäude verhindern sollte. Hier führte ebenfalls ein Hochwasser zu massiven Schäden.

Ein derartiges Szenario muss auch erwartet werden, wenn die Wasserversorgung (wie etwa in Wien: Wasserversorgung selbst bei einem Blackout sicher) funktioniert. Denn im Kanalsystem gibt es viele Hebeanlagen zur Überwindung von Steigungen, die oft nur wenige Stunden gepuffert sind, außer natürlich besonders wichtige und große. Daher ist damit zu rechnen, dass einzelne Häuser geflutet werden, bzw. es zu lokalen Austritten von Abwässern kommt, was wiederum die Seuchengefahr erhöht.

Unterschätzte Supply Chain Verwundbarkeit

Ein Unternehmen an der 110 kV Ebene verliert bei einem längeren Stromausfall die in Kühlhäusern gelagerten Arznei-Grundstoffe . Es sind bereits dynamische Netzersatzanlagen vorhanden, doch Diesel und Erdgas reichen nicht allzu lange aus (ca. 1 Tag). Ein länger dauernder Ausfall kann damit einige Millionen € an Werten vernichten.

Dabei geht es längst nicht nur um den finanziellen Wert, der dabei vernichtet wird, sondern um die massiven Auswirkungen auf die (nicht-elektrische) Versorgungssicherheit! Denn das wird wahrscheinlich kein Einzelfall bleiben und wir haben heute schon laufend Versorgungsengpässe bei der Arzneimittelversorgung, wenn auch aus anderen Gründen. Von den ganzen anderen Bereichen möchte ich gar nicht erst reden.

Nebeneffekte

Die Temperatur in einem Rechenzentrum steigt kritisch an. Zunächst herrscht Ratlosigkeit. In weiterer Folge stellte sich heraus, dass die Wasserkühlung nicht mehr richtig funktionierte. Ursache: Es gab einen Stromausfall im benachbarten Gebäude, wo auch die Wasserpumpen installiert waren. Die Wasserpumpen(kühlung) war nicht im Sicherheitskonzept integriert.

„Die elektrisch betriebenen Türen ließen sich nicht schließen. Also blieb zunächst keine andere Lösung, als mit viel Personal Kundengespräche an der Eingangstür zu führen.“

„Nachdem der erste Schreck über die plötzliche Dunkelheit überwunden war, kamen bereits die ersten verärgerten Kunden, die den hauseigenen Parkplatz nicht verlassen könnten. Wir hatten keine andere Möglichkeit, als ganz schnell die Schranke abzuschrauben“

„So ganz wohl war ihm aber auch nach der Aktion nicht. Kameras und Sicherheitsschleusen funktionieren nicht – ich hoffe, es ist niemand mehr drinnen, der noch einkauft.“

Redundanzen versagen

Nach einem Blitzschlag während eines nächtlichen Gewitters setzte die automatische Belüftungsanlage im Stallgebäude aus, sämtliche Notsysteme versagten ebenfalls. 1.770 der mehr als 2.000 dort untergebrachten Mastschweine, Ferkel und Läufer erstickten binnen weniger Stunden wegen Sauerstoffmangel.

„Normalerweise hätte in so einem Fall ein Notsystem greifen müssen, das die Fenster automatisch öffnet und einen Alarm per SMS auslöst“

Kettenreaktion

DominoeffekteEin Softwaredefekt hat dazu geführt, dass sich die Wasserversorgung im Wasserwerk Mödling abgeschaltet hat. Die dafür vorgesehenen Sicherheitssysteme schlugen jedoch nicht automatisch Alarm. Mehrere Sicherheitsstufen wurden nicht aktiviert, der Überwachungsdienst wusste nicht, dass sich die Systeme abgeschaltet haben. Dazu kam, dass es im Pumpwerk Moosbrunn einen Stromausfall gab, der die Pumpe deaktivierte. Ein Mitarbeiter musste am Morgen die Pumpe per Hand wieder in Betrieb nehmen.

In den Wasserbehältern wird prinzipiell Wasser für einen Mödlinger Tagesbedarf gespeichert. Von Sonntag auf Montag wurde dieses Speichervolumen verbraucht. Durch den Softwaredefekt haben sich die Behälter aber nicht mehr neu aufgefüllt und waren am Montagmorgen leer.

Siehe Mödling stundenlang ohne Wasser

Alarmanlagen

Die Strom-Panne legte den kompletten Hamburger Norden lahm. Am Langenhorner Markt lief minutenlang nur noch die Alarmanlage der Haspa in Dauerschleife – Quelle: www.mopo.de ©2017

Notstromversorgung

Siehe auch Stromausfall legte den Flugverkehr in Belgien lahm.

Notstromversorgung 1

Eine öffentliche Dienststelle verfügt über ein Notstromaggregat. Irgendwann wurde aus Kostengründen die Betreuung an eine externe Firma ausgelagert. Eines Tages kommt es zu einem lokalen Stromausfall. Natürlich zur besten Kundenzeit. Das Notstromaggregat springt nicht an. Der Stromausfall dauert länger, die Firma wird alarmiert. Nach einiger Zeit kommt auch ein Firmenmitarbeiter und findet rasch die Ursache: Überlast

Nach Entfernung von Verbrauchern springt das Notstromaggregat auch an.

Wie kam es zu dieser Überlast? Nachdem es sich um ein altes Gebäude handelt, das schlecht isoliert ist, waren die Heizkosten zu hoch. Daher wurde die Raumtemperatur abgesenkt. Daraufhin nahmen die Mitarbeiter Heizstrahler mit, um wieder eine behagliche Wärme zu schaffen. Diese Heizstrahler wurden auch an notstromversorgten Steckdosen angesteckt, was zur Überlast führte.

Periodische Notstromtests (etwa alle Monat) hätten den Fehler aufdecken können. Sie führen unter realistischen Bedingungen dazu, dass Mängel rechtzeitig erkannt und behoben werden und es zu keiner Kumulation von Fehlern kommt! Dennoch muss auch mit unerwarteten Ereignissen gerechnet werden, wie etwa 2011 bei der Berliner S-Bahn. Daher sollten derartige Tests entsprechend vorbereitet und mit steigernder Intensität begonnen werden.

Notstromversorgung 2

Stromaggregat hat nicht funktioniert, weil Hauptmaschinist nicht da war, Ersatz war nicht vorbereitet. Übung wurde immer bei Leerlast gemacht; bei Volllast hat es nicht funktioniert. à 45’ kein Strom im Krankenhaus. Ursache war Stromkabelschaden durch Grabarbeiten, es gab keine Zweitanspeisung.

Notstromversorgung 3

Beispiel aus der Weststeiermark nach Sturmschäden: Viele Gehöfte hatten sehr hohe Schäden an vorhandenen elektrischen Geräten durch Notstromaggregate, welche mittels Kabelverbindung zwischen Notstromaggregat und Steckdose die Eigenstromversorgung für die Liegenschaft durchführten. Genau das droht, wenn ohne professionelle Vorbereitung kurzfristige Improvisationen durchgeführt werden!

Notstromversorgung 4

Immer wieder ergeben sich im Austausch mit verschiedenen Akteuren neue Blickwinkel und mögliche Probleme, aber auch Lösungen. Wie etwa bei einem Gespräch über die Notstromversorgung, wo die Teilnehmer plötzlich erkannten, dass die vorhandenen mobilen Notstromaggregate erst vor der Ausfahrt bei der nicht notstromversorgten Tankstelle betankt werden müssen. Diese Maßnahme war aufgrund eines mehrfachen Treibstoffdiebstahls aus den abgestellten Notstromaggregaten notwendig geworden. Im Normalfall kein Problem, bei einem Blackout fatal. Daher ist die persönliche Kommunikation und das Durchspielen der entscheidenden Prozesse bei der Blackout-Vorbereitung ganz entscheidend. Nicht auf das verlassen, was schon irgendjemand gemacht haben wird (oder gemacht haben könnte bzw. müsste), oder wofür schon jemand zuständig sein wird, sondern harter Faktencheck. Sonst wird es im Ernstfall zu bösen Überraschungen kommen.

Unzureichende Notstromversorgung / Übersicht

Da oft nur Teilsysteme mit Notstrom versorgt werden, besteht eine hohe Fehlergefahr. USVs werden rasch entleert … das System muss herunterfahren bzw. crasht
Folgen: Raid 1 Verbund wird inkonsistent, ca. 3h Rebuilding Zeit, in dieser Zeit keine Prozesskontrolle

Defekte Pufferbatterien

Alarmanlagen gehen los, da die Pufferbatterien zu schwach sind.

Defekte Netzteile

Netzteile von PCs, Power over Ethernet (PoE), Netzwerkkomponenten, Steuerungen, etc. fallen aus.

Folgen: Vorrat an Netzteile geht aus

Hier besteht eine besonders hohe Gefahr, dass es nach einem Blackout zu massiven Ersatzteilproblemen kommt (Gleichzeitigkeitsbedarf!!) und daher Infrastruktur- und Produktionssysteme nicht hochgefahren werden können!

USV Versagen/defekt

Aus Kostengründen wird die Wartung der USV-Anlagen für eine wichtige Verkehrssteuereinrichtung ausgesetzt. Bei einem lokalen Stromausfall versagen die USV und es kommt zu erheblichen Verkehrsbehinderungen.

Man hat verabsäumt, die USVs vor den elektrischen Überprüfungen zu warten …
Folgen: Bei der FI-Wartung legt man die Produktionssysteme lahm

USV leer

Da vergessen wurde, alle Verbraucher bzw. auch die USV abzuschalten.
Folgen: Stillstände wegen Ladezeiten, beim Anlauf der USV fallen die Sicherungen weil zuviel Strom gezogen wird

USV falsch verwendet

Immer wieder wird bei (lokalen) Stromausfällen festgestellt, dass Steckdosenleisten/Geräte falsch angesteckt sind und es dadurch keine USV-Versorgung für kritische Systeme gibt.

Kennzeichnung von Steckdosen

Kennzeichen Bedeutung
(neutral) normale Steckdose, direkt an das örtliche Versorgungsnetz angeschlossen
rot/orange EDV-Netz mit Überspannungsschutz, separate Verteilungen, oft mit einem Dieselgenerator gesichert; kurzzeitige Ausfälle (1s) möglich.
grün ausfallsicheres Netz, mit USV gegen kurzzeitige Aussetzer und Überspannungen gesichert; hängt in der Regel am „roten“ Netz
(unspezifisch) gefiltertes, aber nicht ausfallsicheres Netz; hier gibt es ein sauberes Strombild und daher sollten dort auch keine nichtlinearen Verbraucher angeschlossen werden

Leere Bios Batterien bei Rechner

Folgen: Office Rechner mit WIN7 können sich im Netzwerk nicht anmelden, da die Systemzeit nicht mit der Windowszeit übereinstimmt … Fallweise wird dann erkannt, dass auch manche Office Systeme für die Produktion sehr wichtig sein können …

Akkus überladen

Eine Organisation hält Satellitentelefone für Krisenfälle vor. Bei einem tatsächlichen Einsatz fallen diese aber bereits nach kurzer Zeit aus.

Ursache: Die Satellitentelefone wurde für die Einsatzbereitschaft permanent geladen/steckten in der Ladestation. Dadurch kam es über die Zeit zu einer Überladung der Akkus und zum Defekt. Die periodischen Funktionskontrollen dauerten aber nur wenige Minuten, womit dieser Defekt erst im Einsatz aufgefallen ist.

Hinweis: Dieses Problem entsteht auch in vielen anderen Bereichen. Besonders gefährdet sind Handfunkgeräte von Kommandanten, die nicht so oft im Außeneinsatz sind und daher das Funkgerät permanent laden.

Kommentare: Handfunkgeräte durchrotieren lassen wird zunehmend problematischer, weil im Zuge der Digitalisierung (z.B. bei Tetra) die Geräte teilweise personalisiert werden.
Abhilfe können nur intelligente Ladegeräte bringen, die meist aus Kostengründen entfallen. Oder Akkus regelmäßig mit anderen in Betrieb befindlichen Geräten tauschen. Wolf Höller

Man darf nie erwarten, dass Geräte, Anlagen oder Abläufe, die nicht laufend im Alltag verwendet werden, in einem Ernstfall funktionieren. Auch punktuelle Übungen, können dieses Problem in der Regel nicht beheben. Daher befolgen moderne Konzepte zunehmen die Regel, „Keine toten Systeme“ ( (c) Land Vorarlberg!?) und sehen redundante Parallelanlagen/-abläufe vor, die auch im Normalbetrieb laufend Anwendung finden. Hermann Bühler

Sonstige Punkte

  • Diverse Komponenten fallen für immer aus … Schaltuhren, etc.
  • Die Uhren gehen falsch … da die Zeit nicht abgeglichen wird

Sonstige Posts

Andere Sektoren

WHO – Ebola Bekämpfung

„… war nicht vorbereitet auf einen Ausbruch dieser Größenordnung, der soweit verbreitet, so schwerwiegend und so komplex war … Doch viele Probleme waren hausgemacht … zu spät gehandelt … krass unterschätzt … solche Defizite liegen auch an den Strukturen, die einer dringenden Reform bedürfen …

Konsequenzen 5-Punkte-Plan: Besseres Krisenmanagement, schlankere Strukturen, bessere Kontrollmechanismen, eine Aufstockung von Experten und einen 100 Millionen Dollar Krisenfont“

Leider erfolgen solche Erkenntnisse immer erst im Nachhinein und immer nur für das gerade erlebte Ereignis, obwohl sich die Erkenntnisse auf viele anderen Bereiche auch übertragen lassen.

 

No comments

Be the first one to leave a comment.

Post a Comment