Метода динамического программирования — КиберПедия 

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Метода динамического программирования

2017-10-01 300
Метода динамического программирования 0.00 из 5.00 0 оценок
Заказать работу

Условия оптимальности, которые дают метод динамического программирования, могут быть положены в основу создания приближенных методов решения задач определения оптимального управления.

Метод последовательных приближений.

Пусть требуется найти оптимальную программу управления системой

, , , , .

В соответствии с методом динамического программирования оптимальное управление должно удовлетворять уравнению Беллмана

при условии . Уравнение Беллмана можно представить в следующей форме:

,

.

Так как при оптимальном управлении функция обращается в нуль, то полная производная функции будущих потерь, вычисленная вдоль оптимальной траектории, равна

, .

Допустим, что на итерации имеем - некоторое допустимое управление и - соответствующую ему траекторию. Тогда можно вычислить функцию :

,

так как при .

Теперь построим функцию

.

Минимизируя эту функцию, найдем новое приближение для управления . Можно показать, что если указанное построение оказывается возможным, то последовательность управлений является минимизирующей, т.е. .

Аппроксимация функции будущих потерь. Метод параметров.

Основное рекуррентное соотношение дает формальный алгоритм численного решения. Однако аналитическое выражение для функции будущих потерь получить в общем виде не удается. Задачу можно решить приближенно, если функцию будущих потерь на каждом шаге аппроксимировать некоторой зависимостью вида

,

где - некоторые заданные функции, - параметры, которые определяются типом аппроксимации. Например, можно определить из условия обращения в минимум следующей квадратичной ошибки:

.

Здесь под понимаются некоторые характерные точки из допустимого множества векторов , через обозначены значения функции будущих потерь, вычисленные для точек согласно основному рекуррентному соотношению. Дифференцируя последнее выражение по и приравнивая производные к нулю, получаем

или ,

где , .

Искомый вектор параметров, обеспечивающий наилучшее приближение функции будущих потерь в смысле квадратичной ошибки , определяется следующим образом:

.

При выборе структуры функций необходимо учитывать ограничение, в силу которого должно иметь место условие

.

Приближенное решение уравнения Беллмана.

Метод параметров легко распространяется и на непрерывный случай, т.е. он может быть применен для приближенного решения уравнения Беллмана:

, .

Представим в виде

,

где - заданные функции, - функции времени, определяемые из условия

,

где - множество допустимых векторов .

Отсюда получаем

,

, .

Продифференцировав по времени, получим

.

Производную можно приближенно определить из уравнения Беллмана, тогда

.

Граничное условие для получается из условия

.

 


Поделиться с друзьями:

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...

Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.025 с.