Meta* выпустила Llama 3 - самую мощную языковую модель с открытым исходным кодом — Сервисы на vc.ru

→ Оригинал (без защиты от корпорастов) | Изображения из статьи: [1]

Несколько часов назад компания Meta выпустила новую и самую мощную версию своей открытой модели большого языка (LLM) Llama 3. В релиз вошли две версии модели: Llama 3 8B, содержащая 8 миллиардов параметров, и Llama 3 70B, содержащая 70 миллиардов параметров. Обе версии поставляются в базовом варианте и варианте с настройкой по инструкциям.

Если вы не знали, именно эти передовые языковые модели используются в таких популярных приложениях Meta, как Facebook, Instagram, WhatsApp, Messenger и веб-приложении Meta AI.

По оценке HumanEval, равной 81,7 балла, эта модель превосходит ведущие закрытые модели, включая Gemini Pro 1.5 с 71,9 балла и Claude 3 Sonnet с 73,0 балла. Однако она все же немного уступает лучшим закрытым моделям, а именно Claude 3 Opus (84,9) и GPT4 Turbo (85,7).

Meta-Llama-3-8B и Meta-Llama-3-8B-Instruct в настоящее время возглавляют список трендов на HuggingFace.

Это официально самые быстрые модели, которые прошли путь от релиза до тренда №1 всего за несколько часов.

Что нового в LLama 3?

Meta добавила в этот релиз множество улучшений:

  • В моделях Llama 3 снижен процент ложных отказов. Это происходит, когда LLM отклоняет корректный промпт.
  • Улучшенное согласование ответов. Это означает способность генерировать ответы, которые лучше соответствуют ценностям и целям человека.
  • Кроме того, по сравнению с Llama 2 модель предлагает большее разнообразие ответов.
  • Llama 3 удваивает длину контекста по сравнению с Llama 2, используя контекстное окно в 8 тыс. токенов.
  • Модели Llama 3 были обучены на ~8-кратном увеличении объема данных на более чем 15 триллионах токенов на новой подборке общедоступных онлайн-данных на двух кластерах с 24 000 GPU.
  • Что касается условий лицензирования, Llama 3 поставляется с разрешительной лицензией, которая позволяет распространять, дорабатывать и создавать на ее основе новые продукты. Требование о явном указании авторства является новым в лицензии Llama 3 и отсутствовало в Llama 2.
  • В Llama 3 расширены такие возможности, как рассуждения, генерация кода и следование инструкциям.

Llama 3 имеет пять вариантов моделей: 70B, 70B instruct, 8B, 8B instruct и Llama Guard 2. Llama 3 8B, разработанная для использования в потребительских устройствах, по производительности близка к старшей модели Llama 2 70B.

Llama Guard 2, созданная для использования на производстве, предназначена для классификации входных данных LLM (промптов), а также ответов LLM с целью обнаружения контента, который будет считаться небезопасным в классификации рисков.

Значительным изменением в Llama 3 стал новый токенизатор, который значительно расширил словарный запас - 128 256 токенов по сравнению с 32 тыс. токенов в Llama 2. Это позволяет более эффективно кодировать текст, но увеличивает количество параметров модели: меньшая модель выросла с 7 миллиардов до 8 миллиардов. В 8-ми миллиардной версии также реализовано внимание по сгруппированным запросам (GQA) для повышения производительности в длинных контекстах.

Бенчмарки

Возможно, самой интересной информацией об этом релизе является тот факт, что, несмотря на открытый исходный код, Llama 3 превосходит коммерческие модели, такие как Gemini Pro 1.0, по рейтингу предпочтений аннотаторов.

Вы можете посмотреть здесь, как Meta устанавливала и проводила эти оценки.

Как попробовать Llama 3?

На данный момент Meta AI доступна только в нескольких странах.

Мы распространяем Meta AI на английском языке более чем в дюжине стран за пределами США. Теперь люди получат доступ к Meta AI в Австралии, Канаде, Гане, Ямайке, Малави, Новой Зеландии, Нигерии, Пакистане, Сингапуре, Южной Африке, Уганде, Замбии и Зимбабве - и мы только начинаем.

Конечно, вы можете использовать VPN, но есть и другие бесплатные способы попробовать Llama 3:

HuggingFace Chat

Перейдите в HuggingFace Chat и войдите в систему или создайте учетную запись. Убедитесь, что в настройках " Current Model " выбрана модель Meta-Llama-3-70B-Instruct.

У вас также есть возможность включить функцию поиска в Интернете.

Игровая площадка Langsmith

Войдите в панель управления игровой площадки Langsmith и установите провайдера на "Fireworks", а модель - на "llama-v3-70b-instruct".

Replicate

Наконец, вы можете попробовать модель Llama-3-70b-instruct через API на Replicate.

Эта языковая модель оценивается по тому, сколько входных токенов отправляется на вход и сколько выходных токенов генерируется.

Кроме того, скоро вы сможете протестировать мультимодальный Meta AI на смарт-очках Ray-Ban от Meta.

Еще больше интересных новостей...

То, что было показано сегодня, уже здорово, но впереди еще много интересного.

В одном из интервью Марк Цукерберг рассказал, что Llama 4 и Llama 5 находятся в стадии разработки, а их выход запланирован на 2024 год. Исследовательский документ пока недоступен, но, по словам Meta, они выложат его вместе с обновлениями в ближайшие месяцы.

В ближайшие месяцы мы планируем представить новые возможности, более длинные контекстные окна, дополнительные размеры моделей и повышенную производительность, а также поделиться исследовательским документом Llama 3.

Как технический писатель и поклонник искусственного интеллекта, я рад видеть прогресс, достигнутый в этой последней версии модели Llama. После публикации этой статьи я погружусь в новые языковые модели, протестирую их возможности и сравню с другими лучшими языковыми моделями. Мне интересно посмотреть, как они проявят себя в реальных условиях.

*Деятельность компании Meta на территории РФ запрещена.

Источник статьи на английском - здесь.