ReNO: Resilient Integration of Machine Learning for Enhanced Network Operation

(ReNO: Resiliente Integration von maschinellem Lernen für den verbesserten Netzbetrieb)

Team

Internet Network Architectures and Management, TU Berlin

  • Stefan Schmid
    Stefan Schmid is a Professor at the Technical University of Berlin, Germany. MSc and PhD at ETH Zurich, Postdoc at TU Munich and University of Paderborn, Senior Research Scientist at T-Labs in Berlin, Associate Professor at Aalborg University, Denmark, Full Professor at the University of Vienna, Austria, and Sabbathical as a Fellow at the Israel Institute for Advanced Studies (IIAS), Israel. Stefan Schmid received the IEEE Communications Society ITC Early Career Award 2016 and an ERC Consolidator Grant 2019.

  • Leon Kellerhals
    PostDoc

Distributed Systems, University of Kassel

  • Oliver Hohlfeld
    Oliver Hohlfeld is a Professor at the University of Kassel where he heads the Distributed Systems group. Before, he was professor at Brandenburg University of Technoligy and headded the Computer Networks group. He obtained his PhD from TU Berlin and was a member of Deutsche Telekom Innovation Laboratories. Oliver was a visiting scholar at the group of Paul Barford at the University of Wisconsin - Madison, USA.

  • Hozifah Bakar
    PhD student

Abstract

[EN] Due to the important role that communication networks, and the Internet in particular, play in our society, such failures are seen as significant threats for our daily life’s. The main reason behind these failures? Networks are becoming more and more complex. While network operators are already struggling to control and to configure well-established protocols to patch failures or to prepare the Internet for the future, new technologies such as reconfigurable, softwarized, and programmable networks increase the amount of possible configuration knobs. Yet, network operators get left behind with their traditional network operation tools and solutions. Machine learning based network management solutions propose a way to handle complexity in network management. Yet, ML can itself harm network resilience by making wrong decisions and being understood as black-box solutions that cannot be fully understood. The goal of this project is to improve network resilience by identifying situations in which machine learning helps in making networks more resilient. To realize this goal, this project aims at deriving a methodology for performing risk assessment of (ML-driven) network management approaches. The influence of a given network management approach (e.g., ML-based) on network resilience will be captured in a resilience function that is derived by our methodology. In a second step, we capture the non-trivial interaction effects that can occur when deploying ML-based network management functions independently in different networks. To exemplify our methods, we target a wide area networking use case with focus on two problems: i) Internet routing and ii) attack detection and mitigation. We argue that ML can be suitable for managing complex networks, when it can be sufficiently controlled. The application of ML should actually increase but not harm network resilience. Our framework helps to realize the vision of having resilience-by-design when new ML-based solutions are proposed: it should become an integral part of analyzing ML solutions before putting them into effect.

[DE] Aufgrund der wichtigen Rolle, die Kommunikationsnetze und insbesondere das Internet in unserer Gesellschaft spielen, werden solche Ausfälle als erhebliche Bedrohung für unser tägliches Leben angesehen. Der Hauptgrund für diese Ausfälle liegt insbesondere in der stetig steigenden Komplexität heutiger Netze. Während Netzbetreiber bereits damit beschäftigt sind, etablierte Protokolle zu kontrollieren und zu konfigurieren, um Ausfälle zu beheben oder das Internet auf die Zukunft vorzubereiten, erhöhen neue Technologien wie rekonfigurierbare, softwarisierte und programmierbare Netze die Anzahl der Konfigurationsmöglichkeiten. Jedoch bleiben Netzbetreiber mit ihren traditionellen Werkzeugen für den Netzbetrieb auf der Strecke. Auf maschinellem Lernen (ML) basierende Netzwerkmanagementlösungen bieten eine Möglichkeit, die Komplexität des Netzwerkmanagements zu bewältigen. ML kann jedoch selbst die Widerstandsfähigkeit des Netzes beeinträchtigen, indem es falsche Entscheidungen trifft. Diese Entscheidungen sind zudem schwer nachzuvollziehen, da ML teilweise immer noch als sogenannte Black Box agiert. Das Ziel dieses Projekts ist es, die Widerstandsfähigkeit von Netzen zu verbessern, indem Situationen identifiziert werden, in denen maschinelles Lernen dazu beiträgt, Netze widerstandsfähiger zu machen. Um dieses Ziel zu erreichen, soll in diesem Projekt eine Methodik zur Risikobewertung von (ML-gesteuerten) Netzmanagementansätzen entwickelt werden. Der Einfluss eines bestimmten Netzmanagement-Ansatzes (z.B. ML-basiert) auf die Resilienz von Netzen wird mittels einer Resilienz-Funktion erfasst, die durch unsere Methodik abgeleitet wird. In einem zweiten Schritt erfassen wir die nicht-trivialen Interaktionseffekte, die auftreten können, wenn ML-basierte Netzmanagementfunktionen unabhängig voneinander in verschiedenen Bereichen von Netz (z.B. Routing und Abwehr von Anomalien) eingesetzt werden. Zur Veranschaulichung unserer Methoden nehmen wir einen Anwendungsfall aus dem Bereich der Weitverkehrsnetze ins Visier und konzentrieren uns dabei auf zwei Probleme: i) Internet-Routing und ii) Angriffserkennung und -abwehr. Wir argumentieren, dass ML für die Verwaltung komplexer Netze geeignet sein kann, wenn es ausreichend kontrolliert werden kann. Die Anwendung von ML sollte die Widerstandsfähigkeit der Netze erhöhen, und nicht beeinträchtigen. Unser Rahmenwerk hilft bei der Verwirklichung der Vision von Resilienz durch Design, wenn neue ML-basierte Lösungen vorgeschlagen werden: Es sollte ein integraler Bestandteil der Analyse von ML-Lösungen werden, bevor sie in die Praxis umgesetzt werden.