Цель этого проекта оценка качетсва (бенчмаркинг) больших языковых моделей.
Для оценки качества используются автоматические и ручные тесты.
Мой видео обзор теста тут - https://www.youtube.com/watch?v=rM2JNDuWNXk
Test name | ChatGPT 3.5-turbo | Yandex GPT |
---|---|---|
Russian Sarcasm test | 88.1% (155/21) | 12.5% (22/154) |
Russian Lexicon | 49% (49/51) | 66% (66/34) |
Word in Context | 59% (59/41) | 0% (0/100) |
Russian NLP test | 18.6% (32/140) | 4.65% (8/164) |
Russian Verse | 0% (0/15) | 20% (3/12) |
- Дата проведения теста: третья декада декабря 2023
- Для получения ответа использовался только 1 запрос в LLM
- Повторые запросы при получении ошибки также не делелались
- Результаты тестов лежат в папке
/auto-tests
Test name | ChatGPT 3.5-turbo | Yandex GPT |
---|---|---|
Игра пинг понг | 6.5 | 1 |
Кандинский | 6 | 5 |
Объяснение анекдотов | 7 | 5 |
Используемый промпт:
Сделай игру на JavaScipt пинг-понг. Прямоугольная площадка по переметру экрана не имеет границ справа, там находится игрок в виде прямоугольника который движется от верхней до нижней границы, нажимая вверх-вниз игрок перемещается по вертикали. Его задача отбивать мяч которые отскакивает от границ площадки.
Сделай результат в виде html файла который можно запусть в браузере. Сделай все в одном файле
Используемый промпт:
Нарисуй на javascript картину в стиле кандинского размером 500 на 500
- Результаты проверки лежат в папке
/manual-tests
- Yandex GPT, досаточтоно неплохо понимает тонкости русского языка
- Yandex GPT часто игнорирует инструкции по формату ответа
- Использование Yandex GPT существенно дороже ChatGPT 3.5-turbo
- При проведении ручных тестов UI от OpenAI намного удобнее, и позволяет не только генерировать но и выполнять код
- Все что касается генерации кода, Yandex GPT пока что не может сравниться с ChatGPT 3.5-turbo
- YandexGPT отвечает достаточно быстро, но гораздо чаще выдает ошибки (GATEWAY ERROR)
Планиурется публикации результатов на регулярно основе. То что вы видите сейчас, маленькая часть от наших планов. Я открыт для коллабораций и сотрудничества. Планы на ближайший релиз:
- Увеличение количества автоматических тестов
- Добавление новых языковых моделей (GigaСhat, Gemini, Grok)
- Добавление более сложных автоматических тестов