Тест Тюрінга на стероїдах: Chatbot Arena збирає рейтинги 45 моделей ШІ

Тест Тюрінга на стероїдах: Chatbot Arena збирає рейтинги 45 моделей ШІ 1 HI-TECH

Збільшити/Сліпе тестування нашої старої улюбленої підказки «Хто винайшов відеоігри?». Зауважте, що Model B продовжується набагато довше, якщо прокручувати (і помилково каже, що Nintendo та Atari створювали відеоігри в 60-х)https://chat.lmsys.org/?arena

З моменту публічного запуску в травні LMSys каже, що вона зібрала понад 130 000 сліпих попарних оцінок для 45 різних моделей (станом на початок грудня). Здається, ці цифри швидко зростуть після нещодавнього позитивного відгуку Андрія Карпаті з OpenAI, який уже призвів до того, що LMSys описує як «супер стрес-тест» для своїх серверів.

Тисячі парних рейтингів Chatbot Arena обробляються за допомогою моделі Бредлі-Террі, яка використовує випадкову вибірку для створення рейтингу в стилі Elo, який оцінює, яка модель з найбільшою ймовірністю виграє в прямій конкуренції з будь-якою іншою. Зацікавлені сторони також можуть самостійно досліджувати необроблені дані десятків тисяч рейтингів підказок/відповідей людей або вивчати більш детальну статистику, таку як прямі попарні коефіцієнти виграшу між моделями та діапазони довірчих інтервалів для цих оцінок Elo.

Читайте ще:  Революція в сфері нерухомості: як забудовники формують майбутнє
V. Petrov
Оцініть автора
Watch And Tell
Додати коментар