Představujeme Gemini 1.5: V čem je lepší než předchozí verze 1.0?

Dramaticky vylepšený výkon s průlomem v porozumění sdělením s dlouhým kontextem, tak popisuje model Gemini 1.5 společnost Google. Staví na inovacích ve výzkumu a inženýrství napříč téměř všemi oblastmi vývoje základních modelů a infrastruktury. Nově využívá architekturu Mixture-of-Experts (MoE), která zvyšuje efektivitu trénování a provozu modelu.

Prvním modelem z této řady, který byl představen v únoru 2024, je Gemini 1.5 Pro. Jedná se o středně velký multimodální model, optimalizovaný pro širokou škálu úkolů, jehož výkon je srovnatelný s Gemini 1.0 Ultra. Kontextové okno Gemini 1.5 Pro je o velikosti 128 000 tokenů a umí zpracovávat text, obrázky, zvuk a video. I Gemini 1.5 si můžete vyzkoušet v aplikaci OCTODEEP.

Vysoce efektivní architektura

Gemini 1.5 je postaven na předním výzkumu architektury Transformer a MoE . Zatímco tradiční Transformer funguje jako jedna velká neuronová síť, modely MoE jsou rozděleny na menší „expertní“ neuronové sítě.

V závislosti na typu daného vstupu se modely MoE učí selektivně aktivovat pouze nejrelevantnější expertní dráhy ve své neuronové síti. Tato specializace výrazně zvyšuje efektivitu modelu. Google byl prvním zastáncem a průkopníkem techniky MoE pro hluboké učení prostřednictvím výzkumu, jako je Sparsely-Gated MoE , GShard-Transformer , Switch-Transformer, M4 a další.

Díky nejnovějším vylepšením v architektuře modelu se Gemini 1.5 dokáže rychleji učit složité úkoly a zároveň si udržet vysokou kvalitu. Navíc je efektivnější při tréninku a provozu. Tyto úspory pomáhají Google týmům rychleji vyvíjet, trénovat a dodávat pokročilejší verze Gemini.

Komplexní uvažování nad velkým množstvím informací

Gemini 1.5 Pro dokáže bez problémů analyzovat, klasifikovat a shrnovat velké množství informací v rámci jednoho zadání. Například, když dostane 402 stránkový přepis z mise Apollo 11 na Měsíc, dokáže analyzovat rozhovory, události a detaily, které se v dokumentu nacházejí.

Lepší porozumění a uvažování napříč různými formáty

Gemini 1.5 Pro dokáže provádět velmi sofistikované úkoly porozumění a uvažování napříč různými formáty, včetně videa. Například, když dostane 44minutový němý film Bustera Keatona, model dokáže přesně analyzovat různé body děje a události, a dokonce i uvažovat o malých detailech ve filmu, kterých by si člověk snadno nevšiml. Gemini 1.5 Pro umí také lépe řešit problémy s rozsáhlejším kódem. Když dostane zadání s více než 100 000 řádky kódu, dokáže lépe uvažovat nad příklady, navrhovat užitečné úpravy a vysvětlovat, jak různé části kódu fungují.

Vylepšený výkon

Testy ukázaly, že Gemini 1.5 Pro překonává Gemini 1.0 Pro ve 87 % testů, které Google používá pro vývoj vlastních velkých jazykových modelů (LLM). Ve srovnání s Gemini 1.0 Ultra dosahuje podobných výsledků. Gemini 1.5 Pro si udržuje vysoký výkon i s rostoucím kontextovým oknem. V testu Needle In A Haystack (NIAH), kde je malý kousek textu s konkrétní informací umístěn do dlouhého textu, našel Gemini 1.5 Pro vložený text v 99 % případů, a to i v blocích dat o délce až 1 milion tokenů.

Gemini 1.5 Pro také vykazuje působivé schopnosti „kontextového učení„, což znamená, že se může naučit novou dovednost z informací uvedených v dlouhém zadání, aniž by potřeboval další doladění. Bylo to otestováno na benchmarku „Strojový překlad z jedné knihy“ (MTOB), který ukazuje, jak dobře se model učí z informací, které nikdy předtím neviděl. Když dostal gramatický manuál pro jazyk Kalamang, kterým mluví méně než 200 lidí na světě, model se naučil překládat z angličtiny do Kalamangu na podobné úrovni jako člověk, který se učí ze stejného obsahu.

Rozsáhlé testování etiky a bezpečnosti

Všechny modely od Gemini procházejí rozsáhlými testy etiky a bezpečnosti. Poté jsou integrovány poznatky z těchto výzkumů do řídících procesů, vývoje a hodnocení modelů, aby se jejich AI systémy dokázaly neustále zlepšovat. Byl proveden také nový výzkum bezpečnostních rizik a vyvinuty techniky „red-teamingu“ pro testování řady potenciálních škod. Před vydáním 1.5 Pro bylo stejně jako u řady 1.0 provedeno rozsáhlé hodnocení v oblastech jako je bezpečnost obsahu a možné škodlivé reprezentace. Kromě toho Google dál vyvíjí další testy, které zohledňují nové schopnosti dlouhého kontextu 1.5 Pro.

Jak si stojí Gemini 1.5 v porovnání s konkurencí?

Podívejte se na index umělé inteligence, jednu z nejjednodušších metrik, jak porovnávat chytrost modelů mezi sebou.

Zdroj: artificialanalysis.ai

Tvorba a experimentování s modely Gemini

Google nabízí omezený náhled 1.5 Pro vývojářům a podnikovým zákazníkům prostřednictvím AI Studia a Vertex AI. Více se o tom můžete dozvědět na blogu Google pro vývojáře a blogu Google Cloud.

Gemini 1.5 se dá využít k mnoha účelům, ať už jste vývojář, nebo běžný uživatel. Zde je několik příkladů:

Pro vývojáře:

Integrace do aplikací: Pomocí Gemini API můžete integrovat pokročilé funkce AI do svých aplikací, ať už jde o mobilní aplikace, webové stránky nebo jiné platformy.
Vytváření modelů AI: Gemini 1.5 se dá využít k trénování a nasazování vlastních AI modelů.
Automatizace úloh: Gemini 1.5 zvládá automatizovat různé úlohy, jako je generování kódu, analýza dat nebo testování softwaru.
Zpracování velkého množství dat: Díky velkému kontextovému oknu zvládá Gemini 1.5 pracovat s obrovským množstvím dat najednou.

Pro běžné uživatele:

Psaní textů: Gemini 1.5 umí generovat různé druhy textů, jako jsou články, básně, e-maily nebo marketingové materiály.
Překlady: Gemini 1.5 zvládá překládat texty mezi různými jazyky.
Shrnutí textu: Gemini 1.5 dokáže shrnout dlouhé texty do kratších a srozumitelnějších verzí.
Odpovídání na otázky: Gemini 1.5 dokáže odpovídat na otázky na základě zadaného textu nebo obecných znalostí.
Vyhledávání informací: Gemini 1.5 zvládá vyhledávat informace na internetu a poskytovat relevantní výsledky.
Brainstorming a kreativní psaní: Gemini 1.5 může pomoci s generováním nápadů a kreativním psaním.
Učení se: Gemini 1.5 může pomoci s učením se nových věcí a vysvětlováním složitých konceptů.

V Google Workspace:

Vylepšené psaní v Dokumentech, Gmailu a dalších aplikacích: Gemini 1.5 může pomoci s formulováním emailů, psaním dokumentů a dalšími úkoly v Google Workspace.

Celkově Gemini 1.5 nabízí širokou škálu možností využití a jeho potenciál se neustále rozšiřuje.

Integrace Gemini 1.5 Pro s dalšími platformami

Verze Gemini 1.5 Pro se navíc snadno propojuje s různými platformami, což usnadňuje její využití:

Vertex AI: Pro vývojáře, kteří chtějí vytvářet, nasazovat a spravovat AI modely v Google Cloudu.

AI Studio: Webový nástroj pro rychlé testování a experimentování s Gemini 1.5 Pro přímo v prohlížeči.

Gemini API: Umožňuje vývojářům integrovat Gemini 1.5 Pro do svých aplikací a platforem, a to pro generování obsahu, analýzu dat a řešení problémů s textem, obrázky, zvukem i videem. API podporuje i práci s daty ve formátu JSON a pokročilé funkce.

Google Workspace: Propojení s aplikacemi jako Gmail a Dokumenty.

Mobilní a webové aplikace: Vývojáři mohou snadno přidat funkce Gemini 1.5 Pro do svých mobilních a webových aplikací pomocí API.

Vyzkoušejte aplikaci OCTODEEP ZDARMA

Aktualizováno: 3.4. 2025

Zdroje:

Gemini 1.5 Pro explained: Everything you need to know [online]. [cit. 31. 03. 2025]. Dostupné z: https://www.techtarget.com/whatis/feature/Gemini-15-Pro-explained-Everything-you-need-to-know
Our next-generation model: Gemini 1.5online]. [cit. 31. 03. 2025]. Dostupné z: https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
‎Updaty a vylepšení aplikací s Gemini [online]. [cit. 31. 03. 2025]. Dostupné z: https://gemini.google.com/updates?hl=cs