Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Сборка с помощью агентов ИИ @dair_ai • Предыдущая: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Я делюсь идеями о том, как создавать с помощью LLM и агентов ⬇️ ИИ
Еще один отличный пост от Anthropic!
Все дело в улучшении ваших агентов с помощью оценок.
Вот мои краткие выводы из блога:
Способности, которые делают агентов полезными (автономия, интеллект, гибкость), являются теми же, которые делают их трудными для оценки. Вы не можете просто запустить модульные тесты и ожидать, что ваше агентное приложение будет работать.
Этот гид разбивает практическую структуру, которую используют разработчики Anthropic для оценок агентов.
Они упомянули три типа оценщиков, каждый из которых имеет свои плюсы и минусы:
- Оценщики на основе кода быстрые, дешевые и воспроизводимые, но хрупкие к допустимым вариациям.
- Оценщики на основе модели справляются с нюансами и открытыми задачами, но являются недетерминированными и требуют человеческой калибровки.
- Человеческие оценщики имеют качество золотого стандарта, но дорогие и медленные.
Они также говорят о двух категориях оценок, которые служат разным целям.
1) Оценки возможностей спрашивают "что этот агент может делать хорошо?" и начинаются с низких проходных баллов.
2) Регрессионные оценки спрашивают "может ли он все еще справляться с предыдущими задачами?" и должны оставаться близкими к 100%. Задачи, переходящие от возможностей к регрессии, представляют собой реальный прогресс.
Для недетерминированности важны две метрики. pass@k измеряет вероятность хотя бы одного успеха за k попыток. pass^k измеряет вероятность того, что все k испытаний успешны. Эти показатели резко расходятся: при k=10, pass@k может приблизиться к 100%, в то время как pass^k падает до почти нуля.
Действительно хороший совет в блогах - начинать с 20-50 простых задач из реальных неудач, а не ждать совершенства. Преобразуйте ручные проверки, которые вы уже выполняете, в тестовые случаи. Оценивайте результаты, а не пройденные пути. Включайте частичный кредит за сложные задачи.
Распространенные ошибки включают жесткую оценку, которая наказывает за эквивалентные, но по-разному оформленные ответы, неоднозначные спецификации задач и стохастические задачи, которые невозможно воспроизвести.
Я настоятельно рекомендую это прочитать.
Блог:
Научитесь создавать эффективных AI-агентов в нашей академии:

170
Еще одно огромное обновление от @elevenlabsio!
Они только что выпустили Scribe v2, который выглядит как самый точный модель транскрипции, когда-либо выпущенная.
Трудно игнорировать эти показатели. Scribe устанавливает новый стандарт точности.

ElevenLabs23 часа назад
Сегодня мы представляем Scribe v2: самую точную модель транскрипции, когда-либо выпущенную.
В то время как Scribe v2 Realtime оптимизирован для ультранизкой задержки и использования агентами, Scribe v2 создан для пакетной транскрипции, субтитрирования и создания субтитров в больших объемах.
13
Агенты LLM терпят неудачу при выполнении длительных задач.
Здесь действительно важна инженерия контекста.
Агенты могут рассуждать и использовать инструменты, но продолжительные операции вызывают неограниченный рост контекста и накопление ошибок.
Обычные решения, такие как сжатие контекста или дополненное извлечение подсказок, заставляют делать компромиссы между достоверностью информации и стабильностью рассуждений.
Это новое исследование представляет InfiAgent, структуру, которая поддерживает строго ограниченный контекст рассуждений агента, независимо от того, как долго выполняется задача.
Идея заключается в том, чтобы внешне сохранить постоянное состояние в абстракции, ориентированной на файлы. Вместо того чтобы запихивать все в контекст, агент поддерживает рабочее пространство файлов, которые сохраняются на протяжении шагов. На каждом этапе принятия решения он восстанавливает контекст из снимка состояния рабочего пространства плюс фиксированное окно недавних действий.
Это разъединяет продолжительность задачи и размер контекста. Независимо от того, занимает ли задача 10 шагов или 1000, контекст рассуждений остается одинаковой длины.
Это хорошо, потому что подход не требует тонкой настройки под конкретную задачу. Агент работает одинаково, независимо от области.
Эксперименты на DeepResearch и задаче обзора литературы из 80 статей показывают, что InfiAgent с 20B открытой моделью конкурентоспособен с более крупными проприетарными системами. Он поддерживает значительно более высокое покрытие на длинных горизонтах, чем ориентированные на контекст базовые линии.
Обзор литературы из 80 статей особенно показателен. Это именно тот вид продолжительной задачи, где традиционные агенты накапливают ошибки и теряют след того, что они сделали. Внешняя сохранность состояния InfiAgent на основе файлов предотвращает это ухудшение.
Статья:
Научитесь создавать эффективные AI-агенты в нашей академии:

43
Топ
Рейтинг
Избранное
