Google prezanton modelin e ri AI që mund të përdorë çdo format inputi për të gjeneruar përmbajtje

Google prezantoi në konferencën Google I/O modelin e ri të inteligjencës artificiale Gemini Omni, i cili “mund të krijojë përmbajtje nga çdo lloj inputi, duke filluar nga videot”. Versioni i parë, Gemini Omni Flash, është tashmë i disponueshëm në aplikacionin Gemini, Google Flow dhe YouTube Shorts. Sipas Google, ky model është një hap përpara krahasuar me Nano Banana dhe gjeneratorin aktual të videove Veo 3.1.

Gemini Omni mund të kombinojë tekst, imazhe, audio dhe video për të krijuar video me cilësi të lartë, të mbështetura nga njohuritë e Gemini për botën reale. Një nga risitë kryesore është mundësia për të edituar videot përmes bisedës natyrale, pasi përdoruesi mund të japë udhëzime të njëpasnjëshme dhe sistemi ruan vazhdimësinë e personazheve dhe elementeve vizuale.

Ndryshe nga Veo 3.1, që pranonte vetëm prompts dhe imazhe, Omni lejon edhe modifikimin e videove ekzistuese. Përdoruesit mund të regjistrojnë një video dhe më pas të kërkojnë ndryshime si shtimi i personazheve, objekteve, ndryshimi i stilit, ambientit apo këndit të kamerës. Google thotë se modeli kupton më mirë ligjet e fizikës si graviteti, energjia kinetike dhe dinamika e lëngjeve, duke krijuar skena më realiste.

Omni synon gjithashtu të krijojë përmbajtje më kuptimplota, duke kombinuar fotorealizmin me njohuri historike, shkencore dhe kulturore. Ai mund të prodhojë video shpjeguese nga udhëzime të thjeshta. Për momentin, audioja do të mbështesë vetëm referenca zanore.

Një tjetër veçori është krijimi i avatarëve dixhitalë që duken dhe tingëllojnë si përdoruesi. Për të shmangur abuzimet, Google premton politika sigurie dhe përdor SynthID, një watermark dixhital i padukshëm që tregon se videoja është gjeneruar nga AI.

Burimi Geekroom.al

GeldTrade.al