Gemini najbardziej kłamie? Międzynarodowe badanie bierze pod lupę wiarygodność AI

Sztuczna inteligencja miała zrewolucjonizować sposób, w jaki konsumujemy informacje, oferując błyskawiczne podsumowania i syntezę wiadomości. Jednak za tymi wszystkimi obietnicami kryje się niewygodna prawda: AI nagminnie się myli. Chociaż od czasów „halucynacji” wczesnych modeli nastąpił postęp, nowe, obszerne badanie przeprowadzone przez Europejską Unię Nadawców (EBU) i BBC rzuca niepokojące światło na jakość generowanych podsumowań informacyjnych. Badacze skupili się na tym, jak radzą sobie czołowe chatboty – ChatGPT, Copilot, Perplexity i Gemini – w dostarczaniu rzetelnych informacji. Wyniki są uderzające, a jeden z modeli – Google Gemini – wyraźnie odstaje od reszty, niestety, w negatywnym sensie.
...

Międzynarodowe badanie jasno wskazuje — Gemini ma największy problem z wiarygodnością newsów

Badanie EBU i BBC miało na celu policzenie i skategoryzowanie błędów w podsumowaniach informacyjnych generowanych przez sztuczną inteligencję. To kluczowe, ponieważ już 15% osób poniżej 25. roku życia polega na AI w celu przyswajania wiadomości. Badacze wzięli na warsztat odpowiedzi na „podstawowe” pytania z darmowych wersji asystentów, analizując w sumie setki odpowiedzi.

Źródło: EBU

Wyniki są alarmujące. W sumie aż 80% odpowiedzi AI zawierało jakieś problemy – od „niewielkich” po „znaczące”. Pokazuje to, jak daleko nam jeszcze do pełnej wiarygodności systemów AI w dostarczaniu newsów.

Czytaj też: Paint wkroczył w erę AI. Koniec zwykłego edytowania, czas na “Restyle”

Główne kategorie problemów:

  1. Dokładność i źródła — to największe pole minowe. Około 50-55% odpowiedzi miało problemy z faktyczną dokładnością treści i/lub weryfikacją, czy podane cytaty faktycznie odzwierciedlają cytowane źródło. Podobny odsetek dotyczył źródłowania – czy twierdzenia w odpowiedzi są w ogóle poparte przez podane przez AI źródło.
  2. Kontekst — aż około 45% odpowiedzi nie dostarczyło wystarczającego kontekstu, by czytelnik niezaznajomiony z tematem mógł w pełni zrozumieć odpowiedź.
  3. Redakcja i fakty kontra opinie — mniej powszechne, ale nadal obecne (ok. 25-30% odpowiedzi), były problemy z zacieraniem granicy między opinią a faktem oraz wprowadzaniem do odpowiedzi treści redakcyjnych lub stronniczych opinii, które były niezamierzone przez organizację informacyjną.

Gemini w czerwonej strefie

Choć żaden z ocenianych modeli nie wypadł rewelacyjnie (wszystkie oscylowały wokół 75-80% odpowiedzi z jakimiś problemami), jeden model wyraźnie odstaje w najgorszym możliwym wymiarze – znaczących błędów. Jak widać na wykresie porównującym asystentów, Copilot i ChatGPT mają problemy w około 80% odpowiedzi, przy czym błędy znaczące stanowią około 38% całości. Perplexity wypadło nieznacznie lepiej pod względem ogólnej liczby problemów (ok. 73%). Gemini ma problemy w ponad 90% odpowiedzi, a co gorsza, błędy znaczące (oznaczone ciemnym fioletem) sięgają niemal 80%! AI od Google’a zostało zidentyfikowane jako wyraźny outlier. Oznacza to, że nie tylko ma największą ogólną liczbę błędów, ale jego błędy są o wiele poważniejsze w skutkach niż u konkurencji.

Czytaj też: Telewizory Samsunga zyskują „mózg” z aplikacją Perplexity AI

Źródło: EBU

Badacze wyliczają konkretne mankamenty modelu Google’a:

  • Brak wyraźnych linków do materiałów źródłowych.
  • Brak umiejętności odróżnienia wiarygodnych źródeł od treści satyrycznych lub fikcyjnych.
  • Nadmierne poleganie na jednym źródle, często Wikipedii.
  • Niezdolność do ustalenia odpowiedniego kontekstu.
  • Fałszowanie cytatów bezpośrednich – czyli ich „rzeźbienie”.

Co prawda, badanie to obejmowało dane z sześciomiesięcznego okresu, w którym Gemini zanotowało spore usprawnienia w zakresie dokładności. Jednak nawet po tych poprawkach, model wciąż generuje o wiele więcej znaczących problemów niż ChatGPT czy Perplexity.

Czytaj też: Koniec samotnych konwersacji? ChatGPT stanie się aplikacją społecznościową

W czasach, gdy coraz więcej osób, zwłaszcza młodych, sięga po AI, aby podsumować wiadomości, ustalenia EBU i BBC powinny być traktowane jako czerwony alarm. Choć AI może być wygodne, należy przyjmować generowane przez nie podsumowania z ogromną rezerwą. Konieczność weryfikowania niemal każdej odpowiedzi czyni AI mniej efektywnym, niż byśmy chcieli. Szczególnie model Gemini musi popracować nad swoimi fundamentalnymi mechanizmami źródłowania i weryfikacji faktów, jeśli chce odzyskać zaufanie. To badanie to przypomnienie: nie ufaj w pełni chatbotom – szczególnie gdy chodzi o newsy.