Satz 3.1 (Optimalitätsprinzip), Dynamische Programmierung nach Bellman

Satz 3.1 (Optimalitätsprinzip)

Eine optimale Lösung hat die Eigenschaft, dass bei jedem Punkt dieser Lösung beginnend die verbleibende Lösung optimal im Sinne der zu lösenden Aufgabe ist mit dem gewählten Punkt als Anfangsbedingung.

Diese Idee wird nun im Sinne der dynamischen Programmierung nach Bellman so verwendet, dass die Optimierungsaufgabe (3.2) vom Endzeitpunkt $N$ beginnend rückwärts gelöst wird. Dabei kann der Wert der optimalen Steuerung für den Zeitpunkt $N$ , also $u_{N - 1}$ , unabhängig vom erreichten Zustand $x_{N - 1}$ gelöst werden. Im nächsten Schritt wird ausgehend von der optimalen Lösung $u_{N - 1}$ das optimale $u_{N - 2}$ berechnet. Wiederholt man diese Vorgehensweise bis $k = 0$ , so ist die optimale Steuerstrategie gefunden.

Zugehörige Formeln

\begin{matrix} (3.2) & \begin{aligned} J (x_{0}) & = \sum_{k = 0}^{N - 1} (x_{k}^{T} Q x_{k} + u_{k}^{T} R u_{k} + 2 u_{k}^{T} N x_{k}) + x_{N}^{T} S x_{N} \\ = \sum_{k = 0}^{N - 1} [\begin{array}{ll} x_{k}^{T} & u_{k}^{T} \end{array}] \underset{J}{\underset{⏟}{[\begin{array}{cc} Q & N^{T} \\ N & R \end{array}]}} [\begin{matrix} x_{k} \\ u_{k} \end{matrix}] + x_{N}^{T} S x_{N} \end{aligned} \end{matrix}