Skip to content

Рейтинг (бенчмаркинг) LLM моделей

Notifications You must be signed in to change notification settings

denonrailz/fortran-llm-rating

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Fortran's PhD LLM Rating

v0.1

fortran-llm-rating-logo.png

Цель этого проекта оценка качетсва (бенчмаркинг) больших языковых моделей.

Для оценки качества используются автоматические и ручные тесты.

Мой видео обзор теста тут - https://www.youtube.com/watch?v=rM2JNDuWNXk

Результаты автоматических тестов

Test name ChatGPT 3.5-turbo Yandex GPT
Russian Sarcasm test 88.1% (155/21) 12.5% (22/154)
Russian Lexicon 49% (49/51) 66% (66/34)
Word in Context 59% (59/41) 0% (0/100)
Russian NLP test 18.6% (32/140) 4.65% (8/164)
Russian Verse 0% (0/15) 20% (3/12)
  • Дата проведения теста: третья декада декабря 2023
  • Для получения ответа использовался только 1 запрос в LLM
  • Повторые запросы при получении ошибки также не делелались
  • Результаты тестов лежат в папке /auto-tests

Результаты ручных тестов

Test name ChatGPT 3.5-turbo Yandex GPT
Игра пинг понг 6.5 1
Кандинский 6 5
Объяснение анекдотов 7 5
Игра пинг понг

Используемый промпт:

Сделай игру на JavaScipt пинг-понг. Прямоугольная площадка по переметру экрана не имеет границ справа, там находится игрок в виде прямоугольника который движется от верхней до нижней границы, нажимая вверх-вниз игрок перемещается по вертикали. Его задача отбивать мяч которые отскакивает от границ площадки.

Сделай результат в виде html файла который можно запусть в браузере. Сделай все в одном файле

Кандинский

Используемый промпт:

Нарисуй на javascript картину в стиле кандинского размером 500 на 500

  • Результаты проверки лежат в папке /manual-tests

Выводы

  • Yandex GPT, досаточтоно неплохо понимает тонкости русского языка
  • Yandex GPT часто игнорирует инструкции по формату ответа
  • Использование Yandex GPT существенно дороже ChatGPT 3.5-turbo
  • При проведении ручных тестов UI от OpenAI намного удобнее, и позволяет не только генерировать но и выполнять код
  • Все что касается генерации кода, Yandex GPT пока что не может сравниться с ChatGPT 3.5-turbo
  • YandexGPT отвечает достаточно быстро, но гораздо чаще выдает ошибки (GATEWAY ERROR)

Планы по разивтию проекта

Планиурется публикации результатов на регулярно основе. То что вы видите сейчас, маленькая часть от наших планов. Я открыт для коллабораций и сотрудничества. Планы на ближайший релиз:

  • Увеличение количества автоматических тестов
  • Добавление новых языковых моделей (GigaСhat, Gemini, Grok)
  • Добавление более сложных автоматических тестов

Контакты

About

Рейтинг (бенчмаркинг) LLM моделей

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages