Инженеры из лаборатории искусственного интеллекта Uber AI Labs разработали семейство алгоритмов Go-Explore, основанных на обучении с подкреплением, которые превосходят по эффективности большинство существующих алгоритмов в тестах на играх Atari 1980-х годов. Go-Explore прошел 11 считающихся наиболее сложными для обучения с подкреплением игр, включая Montezuma’s Revenge и Pitfall, обойдя по набранным в них очкам большинство других алгоритмов и средний человеческий результат. Основной особенностью Go-Explore стала способность запоминать предшествующие перспективные состояния и возвращаться в них, осуществляя оттуда дальнейшую разведку, что позволяет повысить эффективность алгоритма обучения с подкреплением. Разработчики продемонстрировали возможное практическое применение Go-Explore для робототехники в задаче управления манипулятором робота. Кроме того в будущем алгоритм может быть полезен в решении множества других задач от обработки естественных языков до создания новых лекарств, говорится в работе, опубликованной в журнале