Новая система PASE на основе ИИ сокращает время восстановления облачных сбоев на 40%
С ростом масштаба и сложности облачных систем на основе ИИ обеспечение надежности сервисов становится критической задачей. Новый подход под названием PASE (Planning-Aware Semantic Self-Healing Engine) предлагает кардинально иной метод: восстановление после сбоев рассматривается как задача нейро-символического синтеза программ.
В основе PASE лежит большая языковая модель (LLM), которая выступает в роли основного движка синтеза планов. Она генерирует структурированные планы восстановления из библиотеки семантических примитивов. Затем нейро-символическая модель мира проверяет выполнимость этих планов через симуляцию, что позволяет отсеять неработоспособные варианты до их применения.
Дополнительно фреймворк включает мета-оптимизатор подсказок, обученный с помощью глубокого обучения с подкреплением (DRL). Этот компонент учится генерировать оптимальные промпты, направляющие процесс планирования LLM. Такой замкнутый цикл «рассуждение — планирование — проверка — адаптация» обеспечивает динамическую генерацию стратегий восстановления, учитывающих контекст сбоя.
Эксперименты на реальном наборе данных по внедрению неисправностей в облачную инфраструктуру показали, что PASE значительно превосходит существующие методы. Среднее время восстановления системы сократилось более чем на 40%, а точность обнаружения сбоев в неизвестных сценариях повысилась. Это достигается за счет того, что PASE не ограничен заранее заданным набором действий, а способен адаптироваться к новым ситуациям.
Разработчики отмечают, что фреймворк объединяет рассуждения на основе LLM с модельной верификацией и мета-обучением, что открывает путь к полностью автономному управлению системами. В отличие от традиционных подходов, где LLM и DRL работают последовательно и слабо связаны, PASE интегрирует их в единый, плотный цикл, максимально используя генеративные и логические способности языковых моделей.
Полученные результаты могут ускорить внедрение самоисцеляющихся облачных систем в промышленной эксплуатации, снижая время простоев и затраты на ручное вмешательство. Исследование опубликовано в репозитории arXiv и привлекло внимание специалистов по надежности и автоматизации.



