Нещодавні обговорення на Reddit більше не відображаються в результатах пошукових систем, які не належать Google. Відсутність є результатом оновлень політики щодо вмісту Reddit, які забороняють сканувати його сайт без погодження з правилами Reddit, які забороняють використовувати вміст Reddit для навчання ШІ без явної згоди Reddit.
Як повідомляє 404 Media, використання «site:reddit.com» у пошукових системах, які не належать Google, включаючи Bing, DuckDuckGo та Mojeek, призводить до мінімальних результатів Reddit за минулий тиждень або їх взагалі не відображається. Ars Technica здійснила пошук у цих та інших пошукових системах і може підтвердити результати. Brave, наприклад, іноді відображає кілька результатів Reddit (приклади тут і тут), але не так багато, як у Google за ідентичних запитів. Видатним є Kagi, який є платним механізмом, який платить Google за частину свого пошукового індексу та все ще показує останні результати Reddit.
Як зазначає 404 Media, протокол виключення роботів Reddit (файл robots.txt) блокує роботам сканування сайту. У протоколі також зазначено: «Reddit вірить у відкритий Інтернет, але не в зловживання загальнодоступним контентом». Reddit схвалив скребки з Інтернет-архіву та деяких дослідницьких організацій.
Reddit оголосив про зміни у своєму файлі robots.txt 25 червня. Напередодні змін, він сказав, що «спостерігав підйом очевидно комерційних організацій, які очищають Reddit і стверджують, що вони не зв’язані нашими умовами чи політикою. Гірше того, вони приховують за robots.txt і кажуть, що вони можуть використовувати вміст Reddit у будь-якому варіанті використання, який вони хочуть.”
Минулого місяця Reddit заявив, що будь-який «доброзичливий актор» може звернутися до Reddit, щоб спробувати співпрацювати з компанією, посилаючись на онлайн-форму. Однак Колін Хейхерст, генеральний директор Mojeek, повідомив мені електронною поштою, що він звернувся до Reddit після того, як його заблокували, але Reddit «не відповідав на багато повідомлень і електронних листів». Він зазначив, що після звіту 404 Media генеральний директор Reddit Стів Хаффман звернувся до нього.
Reddit стає ексклюзивом Google… наразі
Оскільки Google є фактично єдиною пошуковою системою, яка може показувати останні результати Reddit — принаймні на даний момент — Reddit ненавмисно допоміг посилити контроль Google над пошуковою індустрією. Ця зміна відбулася на тлі нещодавніх занепокоєнь щодо якості результатів Google, які поставили спам-ферми, рекламу та посилання електронної комерції в рейтингу SEO та AI вище, ніж більш релевантні результати. Є також занепокоєння щодо Огляду AI від Google.
Коли прес-секретар Reddit Тім Ратшмідт звернувся за коментарем, повідомив електронною поштою, що Reddit веде переговори «з кількома пошуковими системами». Він додав:
Нам не вдалося досягти домовленостей з усіма ними, оскільки деякі з них не можуть або не хочуть давати обов’язкові для виконання обіцянки щодо використання вмісту Reddit, включно з використанням для ШІ.
Після того, як Reddit оголосив війну безкоштовному використанню свого контенту для навчання штучному інтелекту (що також призвело до підвищення цін на доступ до API, що призвело до закриття багатьох сторонніх програм Reddit), Reddit підписав угоду на 60 мільйонів доларів на рік, яка дозволяє Google використовувати дані Reddit. щоб навчити свій ШІ. Очікувалося, що Reddit спробує укласти подібну угоду з Microsoft, але, здається, сторони не змогли досягти згоди відповідно до політики Reddit щодо вмісту, яка також включає правила щодо конфіденційності користувачів і видаленого вмісту, наприклад.
Представник Microsoft сказав мені: «Ми поважаємо стандарт robots.txt».
Заява, опублікована Search Engine Land, пішла далі, додавши: «Bing припинив сканування Reddit після того, як 1 липня запровадив оновлений файл robots.txt, який забороняє будь-яке сканування їх сайту». У жовтні The Washington Post з посиланням на анонімне джерело повідомила, що Reddit розглядає можливість блокування пошукових сканерів Bing, якщо не зможе досягти угоди з Microsoft.
Як зазначив 404 Media, у посібнику Reddit щодо доступу до своїх даних названо «пошукову рекламу або рекламу на веб-сайті» як комерційне використання, що вимагає оплати. Незрозуміло, скільки грошей потрібно буде витратити іншим пошуковим системам, щоб отримати дозвіл на пошук платформи. Ратшмідт сказав, що Reddit «відкритий для співпраці з великими та малими партнерами».
«Це шкідливо для здоров’я Інтернету, якщо комерційні компанії без обмежень збирають наш контент і використовують його, серед іншого, для [навчання] моделей ШІ», — сказав він.
На даний момент Google може й надалі покладатися на Reddit, щоб зробити результати пошуку релевантнішими. Google не відповів на запит Ars про коментар.
Тим часом альтернативним пошуковим системам може бути важче конкурувати.
«З нашими власними алгоритмами ранжирування раніше користувачі часто знаходили на Reddit інші сторінки, ніж вони могли б знайти в Google та інших», — сказав мені Гейхерст з Mojeek.
Генеральний директор додав, що, незважаючи на те, що блокування лише Reddit «не є великою проблемою», він стурбований прецедентом, який це може створити. «Пошукові системи є основним джерелом трафіку для більшості веб-сайтів, і поширення такої поведінки ще більше заглушить трафік. А на невеликі сайти це вплине ще більше, ніж на великі», — сказав він.
Advance Publications, якій належить материнська компанія Ars Technica Condé Nast, є найбільшим акціонером Reddit.