Ihre Rechenaufträge sollten in der Regel im Stapelbetrieb (PBSpro der Firma Altair Engineering) abgearbeitet werden. PBSPro ermöglicht auf einfache Art und Weise die gleichzeitige Durchführung von parallelen und seriellen Berechnungen.
Momentan sind auf dem HPC-Cluster folgende Batchklassen eingerichtet:
Queue | Cores je Node | Maximale Cores | RAM je Core | Maximale Rechenzeit |
---|---|---|---|---|
short | 12 | 600 Cores/Job | 2GB | 48h (2 Tage) |
long | 12 | 140 Cores/Job | 2GB | 168h (7 Tage) |
infinity | 12 | 36 Cores; 12 Cores/Job | 2GB | 1008h (6 Wochen) |
fat | 12 | 24 Cores | 8GB | 1008h (6 Wochen) |
amd_std | 64 | 192 Cores | 2/4GB | 1008h (6 Wochen) |
sfb920_std | 12 | 336 Cores | 2,6GB | 1008h (6 Wochen) |
test | 2 | 10 Cores | 2GB | 2h |
Zusätzlich existiert die Routing-Queue „default“: Fordert ein Job keine bestimmte Queue an, so wird der Job durch diese Queue implizit anhand der angeforderten Ressourcen einsortiert.
Die Sortierung der wartenden Jobs wird über die Priorität geregelt. Diese berechnet sich aus den angeforderten Ressourcen, der Wartezeit und der Queue-Priorität. Die Queue „short“ gibt Jobs den höchsten Prioritätsfaktor, „infinity“ den niedrigsten.
Eine Sonderstellung nimmt die dedizierte „fat“-Queue ein: Es werden nur Jobs angenommen, die mit „qsub -q fat“ submittiert werden. Die Routing Queue „default“ bezieht diese Queue im Scheduling nicht ein. Submittierte Jobs rechnen maximal auf zwei Nodes, deren Besonderheit ist, dass sie 96GB RAM (statt der üblichen 24GB) besitzen.
Eine weitere Besonderheit gilt für die „amd_std“- und „sfb920_std“-Queue: Es werden nur Jobs angenommen, die mit „qsub -q amd_std“ bzw. „qsub -q sfb920_std“ submittiert werden. Die Routing Queue „default“ bezieht diese Queue im Scheduling nicht ein. Die Knoten, die diesen beiden Queues zugeordnet sind, wurden projektgebunden durch das Institut für Experimentelle Physik bzw. durch den Sonderforschungsbereich 920 (SFB920) beschafft. D.h. jeder darf diese Knoten über diese speziellen Queues nutzen, jedoch wird ein bereits rechnender Job abgebrochen und erneut in die Queue gestellt, sobald ein Nutzer der genannten Bereiche einen Job auf diese Knoten einstellt.
Bitte tragen Sie dafür Sorge, in angemessenen Zeitabschnitten Ihre Ergebnisse zwischenzusichern (Checkpointing). Möchten Sie nicht, dass Ihr Job erneut anläuft, sobald Ressourcen auf den amd-Knoten verfügbar werden, so geben Sie PBS den Schalter „-r n“ mit (rerunable no).
Für besondere Anforderungen bzgl. der Rechenzeit und/oder der Größe Ihrer Jobs, eröffnen Sie bitte ein Ticket per Email an .