Direkt zum Inhalt springen
login.png Login    |
de | en
MyTUM-Portal
Technische Universität München

Technische Universität München

Sitemap > Schwarzes Brett > Abschlussarbeiten, Bachelor- und Masterarbeiten > BA/Guided Research in Informatik: Fehlererkennung in Rechensystemen
auf   Zurück zu  Nachrichten-Bereich      Browse in News  nächster    

BA/Guided Research in Informatik: Fehlererkennung in Rechensystemen

18.04.2017, Abschlussarbeiten, Bachelor- und Masterarbeiten

In einem aktuellen Projekt gefördert durch das BMBF untersuchen wir am Lehrstuhl die Kombinierbarkeit von Fehlertoleranz, Performanz und Energieeffizienz in HPC-Systemen. In dieser Arbeit soll herausgefunden werden, welche Methoden zur Fehlervoraussage bereits existieren und welche Systemparameter einen Einfluss auf das Systemausfallverhalten haben.

In einem aktuellen Projekt gefördert durch das BMBF untersuchen wir am Lehrstuhl die Kombinierbarkeit von Fehlertoleranz, Performanz und Energieeffizienz in HPC-Systemen. Im aktuellen Arbeitsschritt ist es uns sehr wichtig, relevante Korrelationen zwischen Systemausfall und Systemzustand zu erkennen, so dass ein bevorstehender Ausfall möglichst zuverlässig erkannt werden kann. Dazu soll unter anderem eine neue, proaktive Methode zur Fehlertoleranz gefunden werden, z.B. mittels Machine Learning, welches die Möglichkeit anbietet, aus Systemüberwachungsdaten Fehler vorauszusagen. Relevante Studien zeigen, dass an einer Reihe von Methoden bereits geforscht wird, wie man sogenannte „Failure Prediction“ realisieren kann. Im Bereich des maschinellen Lernens wurde bereits eine Reihe von Techniken demonstriert, die zur Vorhersage verwendet werden können. Eine Übersicht dieser Methoden ist unter [SLM10] gelistet. Verschiedene Studien zeigen, dass ein solcher Predictor 80% bis 85% aller Ausfälle korrekt voraussagen kann [FRM+14]. Eine vergleichbare Aussagequalität wurde auch für Speichersysteme demonstriert [MDL+15]. Ein Nachteil der bereits genannten Studie ist, dass die verwendeten Daten zum Teil bereits deutlich veraltet sind. Daher möchten wir eine systematische Übersicht bekommen, welcher aktueller Stand der Technik vorhanden und somit für unsere Forschung relevant ist.

In dieser Arbeit soll herausgefunden werden, welche Methoden zur Fehlervoraussage bereits existieren und welche Systemparameter einen Einfluss auf das Systemausfallverhalten haben.

Referenzen:

[FRM+14] Fu, Xiaoyu, et al. "Digging deeper into cluster system logs for failure prediction and root cause diagnosis." Cluster Computing (CLUSTER), 2014 IEEE International Conference on. IEEE, 2014. [MDL+15] Ma, A., Traylor, R., Douglis, et.al. 2015. RAIDShield: characterizing, monitoring, and proactively protecting against disk failures. ACM Transactions on Storage (TOS), 11(4), p.17. [SLM10] Salfner, F., Lenk, M. and Malek, M., 2010. A survey of online failure prediction methods. ACM Computing Surveys (CSUR), 42(3), p.10.

Kontakt: M. Sc. Dai Yang, d.yang@tum.de

Mehr Information

ENVBA1 Beschreibung Bachelorarbeit, (Type: application/pdf, Größe: 657.0 kB) Datei speichern