Fortran's PhD LLM Rating

v0.1

Цель этого проекта оценка качетсва (бенчмаркинг) больших языковых моделей.

Для оценки качества используются автоматические и ручные тесты.

Мой видео обзор теста тут - https://www.youtube.com/watch?v=rM2JNDuWNXk

Результаты автоматических тестов

Test name	ChatGPT 3.5-turbo	Yandex GPT
Russian Sarcasm test	88.1% (155/21)	12.5% (22/154)
Russian Lexicon	49% (49/51)	66% (66/34)
Word in Context	59% (59/41)	0% (0/100)
Russian NLP test	18.6% (32/140)	4.65% (8/164)
Russian Verse	0% (0/15)	20% (3/12)

Дата проведения теста: третья декада декабря 2023
Для получения ответа использовался только 1 запрос в LLM
Повторые запросы при получении ошибки также не делелались
Результаты тестов лежат в папке /auto-tests

Результаты ручных тестов

Test name	ChatGPT 3.5-turbo	Yandex GPT
Игра пинг понг	6.5	1
Кандинский	6	5
Объяснение анекдотов	7	5

Игра пинг понг

Используемый промпт:

Сделай игру на JavaScipt пинг-понг. Прямоугольная площадка по переметру экрана не имеет границ справа, там находится игрок в виде прямоугольника который движется от верхней до нижней границы, нажимая вверх-вниз игрок перемещается по вертикали. Его задача отбивать мяч которые отскакивает от границ площадки.

Сделай результат в виде html файла который можно запусть в браузере. Сделай все в одном файле

Кандинский

Используемый промпт:

Нарисуй на javascript картину в стиле кандинского размером 500 на 500

Результаты проверки лежат в папке /manual-tests

Выводы

Yandex GPT, досаточтоно неплохо понимает тонкости русского языка
Yandex GPT часто игнорирует инструкции по формату ответа
Использование Yandex GPT существенно дороже ChatGPT 3.5-turbo
При проведении ручных тестов UI от OpenAI намного удобнее, и позволяет не только генерировать но и выполнять код
Все что касается генерации кода, Yandex GPT пока что не может сравниться с ChatGPT 3.5-turbo
YandexGPT отвечает достаточно быстро, но гораздо чаще выдает ошибки (GATEWAY ERROR)

Планы по разивтию проекта

Планиурется публикации результатов на регулярно основе. То что вы видите сейчас, маленькая часть от наших планов. Я открыт для коллабораций и сотрудничества. Планы на ближайший релиз:

Увеличение количества автоматических тестов
Добавление новых языковых моделей (GigaСhat, Gemini, Grok)
Добавление более сложных автоматических тестов

Контакты

Telegram

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
auto-tests		auto-tests
manual-tests		manual-tests
fortran-llm-rating-logo.png		fortran-llm-rating-logo.png
img.png		img.png
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Fortran's PhD LLM Rating

v0.1

Результаты автоматических тестов

Результаты ручных тестов

Игра пинг понг

Кандинский

Выводы

Планы по разивтию проекта

Контакты

About

Releases

Packages

Languages

denonrailz/fortran-llm-rating

Folders and files

Latest commit

History

Repository files navigation

Fortran's PhD LLM Rating

v0.1

Результаты автоматических тестов

Результаты ручных тестов

Игра пинг понг

Кандинский

Выводы

Планы по разивтию проекта

Контакты

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages