Queues des Stapelsystems PBSpro

Ihre Rechenaufträge sollten in der Regel im Stapelbetrieb (PBSpro der Firma Altair Engineering) abgearbeitet werden. PBSPro ermöglicht auf einfache Art und Weise die gleichzeitige Durchführung von parallelen und seriellen Berechnungen.

Momentan sind auf dem HPC-Cluster folgende Batchklassen eingerichtet:

Queue Cores je Node Maximale Cores RAM je Core Maximale Rechenzeit
short 12 600 Cores/Job 2GB 48h (2 Tage)
long 12 140 Cores/Job 2GB 168h (7 Tage)
infinity 12 36 Cores; 12 Cores/Job 2GB 1008h (6 Wochen)
fat 12 24 Cores 8GB 1008h (6 Wochen)
amd_std 64 192 Cores 2/4GB 1008h (6 Wochen)
sfb920_std 12 336 Cores 2,6GB 1008h (6 Wochen)
test 2 10 Cores 2GB 2h

Zusätzlich existiert die Routing-Queue „default“: Fordert ein Job keine bestimmte Queue an, so wird der Job durch diese Queue implizit anhand der angeforderten Ressourcen einsortiert.

Die Sortierung der wartenden Jobs wird über die Priorität geregelt. Diese berechnet sich aus den angeforderten Ressourcen, der Wartezeit und der Queue-Priorität. Die Queue „short“ gibt Jobs den höchsten Prioritätsfaktor, „infinity“ den niedrigsten.

Eine Sonderstellung nimmt die dedizierte „fat“-Queue ein: Es werden nur Jobs angenommen, die mit „qsub -q fat“ submittiert werden. Die Routing Queue „default“ bezieht diese Queue im Scheduling nicht ein. Submittierte Jobs rechnen maximal auf zwei Nodes, deren Besonderheit ist, dass sie 96GB RAM (statt der üblichen 24GB) besitzen.

Eine weitere Besonderheit gilt für die „amd_std“- und „sfb920_std“-Queue: Es werden nur Jobs angenommen, die mit „qsub -q amd_std“ bzw. „qsub -q sfb920_std“ submittiert werden. Die Routing Queue „default“ bezieht diese Queue im Scheduling nicht ein. Die Knoten, die diesen beiden Queues zugeordnet sind, wurden projektgebunden durch das Institut für Experimentelle Physik bzw. durch den Sonderforschungsbereich 920 (SFB920) beschafft. D.h. jeder darf diese Knoten über diese speziellen Queues nutzen, jedoch wird ein bereits rechnender Job abgebrochen und erneut in die Queue gestellt, sobald ein Nutzer der genannten Bereiche einen Job auf diese Knoten einstellt.

Bitte tragen Sie dafür Sorge, in angemessenen Zeitabschnitten Ihre Ergebnisse zwischenzusichern (Checkpointing). Möchten Sie nicht, dass Ihr Job erneut anläuft, sobald Ressourcen auf den amd-Knoten verfügbar werden, so geben Sie PBS den Schalter „-r n“ mit (rerunable no).

Für besondere Anforderungen bzgl. der Rechenzeit und/oder der Größe Ihrer Jobs, eröffnen Sie bitte ein Ticket per Email an .