Během ~posledních dvou let došlo k průrazným zlepšením, která výrazně snížila míru „vymýšlení“ (hallucinations) a zároveň zvýšila schopnost modelů chápat a strukturovat komplexní myšlenky. Neznamená to „konec halucinací“, ale je to big step forward. Níže stručně a jasně — co se změnilo a proč to vede k tomu, co teď pozoruješ.
Hlavní techniky, které to změnily (a proč fungují)
-
Grounding / Retrieval-Augmented Generation (RAG) — místo spoléhání se jen na „paměť“ modelu se do odpovědí přidává relevantní text z externích zdrojů (dokumenty, články, databáze). To dává modelu faktickou „kotvu“, díky níž méně hádá. PMC+1
-
Lepší trénink na přesnost + instrukční ladění (instruction tuning + RLHF / RL from human feedback) — modely trénují na tom, aby přednostně odpovídaly pravdivě, učí se „raději přiznat nejistotu“ nebo požádat o zdroj místo vymýšlení. To dramaticky zlepšilo užitečnost. OpenAI
-
Verifikační vrstvy / Chain-of-Verification a self-consistency — při generování model vytváří kontrolní otázky a ověřuje vlastní odpověď (vnitřní sanity checks) nebo používá více kroků k ověření faktů, což snižuje chyby v dlouhých vysvětleních. aclanthology.org
-
Systémová architektura — „routed“ / hybridní modely (rychlý + deliberativní režim) — moderní nasazení používají rychlý model pro běžné věci a hlubší „myšlení“ (deliberative) modul pro složité dotazy; router vybírá hloubku zpracování podle potřeby, takže tam, kde dřív model hádal rychle, dnes přepne do ověřovacího režimu. (To vysvětluje menší frekvenci fantazírování bez velkého zpomalení.) Medium+1
-
Lepší data + filtrace a metriky — větší úsilí dohoštění dat (čištění, deduplikace, aktualizované znalosti) a nové metriky pravdivosti/factuality pomohly modelům méně „halucinovat“. Také razantní vylepšení evaluačních benchmarků a adversariálních testů. magazine.sebastianraschka.com
-
Bezpečnostní a rozhodovací vrstvy (abstention, safe-completion) — místo riskantního tvrzení model častěji odmítne odpovědět, požádá o doplnění informace nebo nabídne ověřitelné zdroje. To dramaticky zvyšuje vnímanou spolehlivost. Medium+1
Co to znamená v praxi (pro tebe jako uživatele)
-
Odpovědi jsou dnes častěji faktické, citují zdroje (když je to potřeba) a méně „vymýšlí“ smyšlené údaje.
-
Model lépe rozumí kontextu a dokáže skloubit rozsáhlé, vícerozsahové asociace (to, co oceňuješ na mém stylu).
-
Přesto: halucinace stále mohou nastat — zvlášť u velmi specifických, nových, nebo chybně formulovaných dotazů; proto je stále dobré žádat zdroje pro důležitá tvrzení.
Důkazy ze současné literatury a výzkumu
-
RAG a přínos groundingu: přehledy a studie ukazují silné snížení halucinací při správném návrhu retrievalu. PMC+1
-
Metody verifikace / chain-of-verification pro dlouhé texty – ukázaly výrazné zlepšení factuality. aclanthology.org
-
OpenAI a průzkum příčin halucinací / snahy o redukci (práce z 2025 popisující proč modely „hádají“ a co pomáhá). cdn.openai.com+1
-
Nasazení specializovaných / routovaných modelů (deliberative + fast) a praktické systémy (např. nové Codex/GPT-5-Codex zprávy) — to je součást moderních implementací, které zlepšují přesnost v praxi. TechRadar+1
Stručné vysvětlení „proč tobě přijde, že já dnes méně halucinuju“
-
Já teď (jako systém, se kterým mluvíš) používám kombinaci přístupů: lepší interní modely pro pochopení, retrieval/grounding kde dostupné kontexty pomáhají, a ověřovací postupy, které redukují riziko „vymýšlení“. To dohromady vede k vnímání „hlubšího porozumění“ a méně chybným faktům.