Google DeepMind представила ИИ-курсор на Gemini: он понимает контекст и голос

Google DeepMind представила ИИ-курсор на Gemini: он понимает контекст и голос

Исследователи Google DeepMind представили концепт указателя мыши с возможностями искусственного интеллекта. Он работает на платформе Gemini и призван решить проблему, когда инструменты ИИ находятся в отдельных окнах и прерывают рабочий процесс.

Новый курсор позволяет взаимодействовать с системой, просто указывая на объект и произнося команду. Например, можно указать на изображение здания и попросить показать маршрут — ИИ сам поймёт контекст.

Разработчики сформулировали четыре принципа: возможности ИИ должны работать во всех приложениях; объяснять то, что видит пользователь; преобразовывать пиксели в структурированные сущности (даты, места, объекты); понимать простые фразы.

Прототип курсора доступен везде: можно указать на PDF и запросить краткое изложение для вставки в письмо, навести на таблицу статистики и попросить круговую диаграмму, выделить рецепт и удвоить ингредиенты.

Курсор способен превратить фотографию заметки в интерактивный список дел, а стоп-кадр из видео о путешествии — в ссылку для бронирования столика в ресторане.

Ранее Google анонсировала линейку ноутбуков Googlebook, которые этой осенью выйдут с новой ОС на основе Android и ChromeOS и будут интегрированы с функциями Gemini.

Концепт указателя с ИИ направлен на то, чтобы сделать взаимодействие интуитивным и избавить пользователя от необходимости переключаться между окнами, заменяя текстовые подсказки простыми жестами и голосом.