Песочница для роботов

Многие слышали про шахматную программу AlphaZero, которая научилась играть в шахматы, зная правила и играя сама с собой миллионы раз. Идея такой песочницы для роботов не новая. В простейшем виде это реализуется фитнес функцией, когда каждый робот получает оценку по какому-то критерию, например по профиту за период.

Потом победители идут на второй круг, а побежденные выбывают. Для оценки по фитнес функции роботов не надо гонять против друг друга и сделать её не сложно. А вот чтобы стравливать роботов и выбирать сильнейших, тут надо придумывать песочницу.
С программисткой точки зрения задача интересная, но непонятная. Надо придумать как двигать цену, так чтобы она реагировала на роботов и чтобы результат эволюцией роботов в такой среде был бы полезен для работы в реальном рынке. Да, можно гонять роботов на истории, это готовая песочница. Максимально похожая на рынок. Но она никак не учитывает воздействия самого робота на этот рынок.
Гоняя роботов на истории, мы по сути выращиваем огромных травоядных динозавров. Им плохо живётся в реальной жизни, то холод, то засуха, то Трамп не в тему твитнет. Гоняя роботов против друг друга в динамической песочнице с обратной связью, можно вырастить хищников, а то и приматов, идея манит.
Какие пути я вижу? Начать со случайного блуждания, меняя вероятности выпадения событий в зависимости от числа поз в рынке. Результаты эволюцией роботов тестировать опять же на истории.
Может у кого есть статьи, книги, свои мысли на эту тему? Задача с практической точки зрения возможно и не самая полезная, интересная скорее с программисткой точки зрения — создание динамического мирка и приближение его к реальному.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

SmartLab

Реклама

Песочница для роботов