Раунд 2: ми тестуємо новий Bard на базі Gemini проти ChatGPT

Зміст

Додаткове читання
Додаткове читання
Тато жартує
Діалог аргументів

Додаткове читання

ChatGPT проти Google Bard: що краще? Ми перевірили їх. Ще в квітні ми запустили серію корисних і/або дещо безглуздих підказок за допомогою чат-бота Google (тоді нового) Bard на базі PaLM і OpenAI (трохи старіші) ChatGPT-4, щоб побачити, який чат-бот AI є кращим. У той час ми віддали перевагу ChatGPT у п’яти із семи випробувань, зауваживши при цьому, що «це ще зародок у бізнесі генеративного ШІ».

Додаткове читання

Google запускає Gemini — потужну модель штучного інтелекту, яка, за її словами, може перевершити GPT-4. Зараз дні штучного інтелекту дещо менш «ранні», і цього тижня запуск нової версії Bard на базі нової мовної моделі Google Gemini здавався хорошим приводом для перегляньте цю битву чат-бота з тим самим набором ретельно розроблених підказок. Це особливо вірно, оскільки в рекламних матеріалах Google наголошується, що Gemini Ultra перемагає GPT-4 у «30 із 32 широко використовуваних академічних тестів» (хоча наразі працює більш обмежений «Gemini Pro»). Bard показує значно гірше в цих не зовсім надійних порівняльних тестах).

Цього разу ми вирішили порівняти новий Bard на базі Gemini з ChatGPT-3.5 — для порівняння поточних «безкоштовних» продуктів AI Assistant обох компаній — і з ChatGPT-4 Turbo — щоб подивитися на Поточний продукт із платною підпискою OpenAI із «найкращим» списком очікування (модель верхнього рівня «Gemini Ultra» Google не буде доступною для громадськості до наступного року). Ми також переглянули квітневі результати, згенеровані моделлю до Gemini Bard, щоб оцінити якого прогресу досягнуто зусиллями Google за останні місяці.

Хоча ці тести далеко не всеосяжні, ми вважаємо, що вони є хорошим орієнтиром для оцінки того, як ці помічники зі штучним інтелектом виконують ті завдання, які звичайні користувачі можуть виконувати щодня. На цьому етапі вони також показують, якого прогресу досягли текстові моделі ШІ за відносно короткий час.

Читайте ще: Дайте собі день, щоб усунути всі ваші рекомендації та провину щодо підписки

Тато жартує

Підказка: Напишіть 5 оригінальних жартів про тата

Скріншот п’яти «татових жартів» із Google Bard на базі Gemini. Кайл Орланд/Ars Technica
Скріншот п’яти «татових жартів» зі старого Google Bard на базі PaLM. Бендж Едвардс/Ars Technica
Скріншот п’яти «татових жартів» із GPT-4 Turbo. Бендж Едвардс/Ars Technica
Скріншот п’яти «татових жартів» із GPT-3.5. Кайл Орланд/Ars Technica

Знову ж таки, обидва перевірені LLM мають проблеми з частиною підказки, яка вимагає оригінальності. Майже всі жарти про тата, згенеровані цим запитом, можна знайти дослівно або з дуже незначними змінами за допомогою швидкого пошуку Google. Bard і ChatGPT-4 Turbo навіть включили в свої списки один і той самий жарт (про книгу про антигравітацію), тоді як ChatGPT-3.5 і ChatGPT-4 Turbo збігалися в двох анекдотах («вчені, що довіряють атомам» і «страшила, які виграють нагороди»). ).

Оголошення

Знову ж таки, більшість татусів також не створюють власних жартів про татів. Відбір від великої усної традиції татових жартів — традиція така ж стара, як і самі тато.

Найцікавіший результат отримано від ChatGPT-4 Turbo, який створив жарт про дитину на ім’я Браян, яку назвали на честь Томаса Едісона (розумійте?). Пошук у Google для цієї конкретної фрази не знайшов особливого результату, хоча він повернув майже ідентичний жарт про Томаса Джефферсона (також із дитиною на ім’я Браян). Під час цього пошуку я також виявив цікавий (?) факт, що зірка міжнародного футболу Пеле, очевидно, насправді була названа на честь Томаса Едісона. Хто знав?!

переможець:сильний>Ми назвемо це нічиєю, оскільки жарти майже ідентичні неоригінальні та сповнені каламбуру (хоча реквізит GPT за те, що він ненавмисно привів мене до випадку з Пеле)

Читайте ще: Intel буде робити чіпи для Microsoft

Діалог аргументів

Підказка: Напишіть дискусію з 5 рядків між фанатом процесорів PowerPC і фанатом процесорів Intel, приблизно 2000.

Знімок екрана діалогового вікна аргументу з Google Bard на базі Gemini. Кайл Орланд/Ars Technica
Знімок екрана діалогового вікна аргументу зі старого Google Bard на основі PaLM. Бендж Едвардс/Ars Technica
Знімок екрана діалогового вікна аргументу з GPT-4 Turbo. Бендж Едвардс/Ars Technica
Знімок екрана діалогового вікна аргументів із GPT-3.5 Кайл Орланд/Ars Technica

Новий Bard на базі Gemini безумовно «покращує» стару відповідь Bard, принаймні з точки зору додавання набагато більше жаргону. Нова відповідь містить випадкові згадки про інструкції AltiVec, дизайни RISC проти CISC і технологію MMX, які не здавалися б недоречними в багатьох дискусіях на форумах Ars тієї епохи. І в той час як старий Бард закінчується неймовірно ввічливим «кожному своє», новий Бард більш реалістично натякає, що суперечка може тривати вічно після п’яти запитаних рядків.

Щодо ChatGPT, досить розлогу відповідь GPT-3.5 скорочують до набагато більш лаконічного аргументу в GPT-4 Turbo. Обидві відповіді GPT мають тенденцію уникати жаргону та швидко зосереджуватися на більш узагальненому аргументі «потужність проти сумісності», який, ймовірно, більш зрозумілий для широкої аудиторії (хоча менш специфічний для технічної).

Переможець: ChatGPT вдається добре пояснити обидві сторони дебатів, не покладаючись на заплутаний жаргон, тому тут він перемагає.