Amazoni veebis surfav agent - vaatame lähemalt

aprill 1, 2025

Amazoni veebis surfav agent – vaatame lähemalt

Amazoni Nova Act – uus AI brauseragent

Tabel, kus on kolm rida ja neljaveergu. Esimene veerg loetleb ülesanded: 'ScreenSpot Web Text,' 'ScreenSpot Web Icon' ja 'GroundUI Web.' Teine kuni neljas veerg esitab numbrilised tulemused kolmes erinevas süsteemis: 'Amazon Nova Act,' 'Claude 3.7 Sonnet*' ja 'OpenAI CUA*'. 'ScreenSpot Web Text' tulemused on 0.939, 0.900 ja 0.883; 'ScreenSpot Web Icon' tulemused on 0.879, 0.854 ja 0.806; 'GroundUI Web' tulemused on 0.805, 0.825 ja 0.823. — *Pildi allikas: Amazon AGI Labs*

Ülevaade: Amazon AGI Labor tutvustas Nova Act’i – tehisintellekti süsteemi, mis oskab iseseisvalt veebibrauserit kasutada ja internetis keerulisi ülesandeid lahendada.

Detailid:

Nova Act on usaldusväärsem kui konkurendid nagu Claude 3.7 Sonnet ja OpenAI arvutikasutuse agent
Arendajatele mõeldud SDK võimaldab luua programme, mis suudavad veebis näiteks täita vorme, sirvida lehti ja hallata kalendreid.
See tehnoloogia hakkab toetama Alexa+ uuendusi ja toob tehisintellekti miljonite olemasolevate Alexa kasutajateni.
Nova Act’i arendasid San Franciscos asuva AGI Labor endised OpenAI teadlased David Luan ja Pieter Abbeel, kes liitusid ettevõttega eelmisel aastal.

Miks see on oluline: Amazon pole seni tehisintellektis edetabeli tipus olnud, aga nende suur Alexa kasutajaskond võib aidata iseseisvatel AI assistentidel laiemalt levida. Kuna praegused AI agendid kipuvad veel vigu tegema, võib Nova Act’i tegelik töökindlus mõjutada, kui palju inimesed neid uusi AI assistente usaldama hakkavad.

Runway uus Gen-4 videomudel

Üheksa pilti: Üksik karusselli hobune vee all, hele juukselokk, inimene arvuti taga plahvatuse taustal, vedel hõbe pinnasel, troopilised taimed akvaariumis, õhkutõusev täispuhutav maja, punane tool keset heinamaad, plahvatus ja klaaspaneelid. — *Pildi allikas: Runway*

Ülevaade: Runway tutvustas hiljuti oma Gen-4 tehisintellekti mudelit, mis pakub paremat järjepidevust ja täpsemat kontrolli videote loomisel. Uuendused on mõeldud spetsiaalselt professionaalse filmitööstuse vajadusi silmas pidades.

Detailid:

Gen-4 suudab hoida videotes järjepidevust tegelaste, objektide ja kohtade vahel ning sisaldab paremat füüsilist tunnetust, kui kunagi varem.
See mudel loob detailseid 5–10 sekundilisi 1080p resolutsiooniga videoid ning pakub tööriistu nagu “katvus”, mis aitab stseeni üles ehitada ja hoida objektid õigetes kohtades kogu video vältel.
Runway nimetab seda tehnoloogiat „GVFX“-iks ehk generatiivseks visuaalseks efektiks ja näeb seda kui uut tootmisviisi filmiloojatele ja sisuloojatele.x
Esimesed kasutajad on suured meelelahutusfirmad – näiteks kasutatakse Gen-4 tehnoloogiat Amazon toodangus ja Madonna kontserdi visuaalides.

Miks see on oluline: AI video on läbinud sama kvaliteedi ja kontrolli hüppe, mida läbisid alguses AI pildid – see järgmine mudelite põlvkond viib tööriistad ebausaldusväärsetest uudistest professionaalsete filmide, reklaamide ja muu sisu loomise võimekusteni.

Tehisintellekt suudab ajusignaale kohe kõneks tõlkida

Käed kinnitavad väikese musta elektroonikaseadme inimese pea tagaküljele juustesse. Seadmele on ühendatud juhtmed. — *Pildi allikas: UC Berkeley*

Ülevaade: UC Berkeley ja UCSF teadlased lõid tehisintellekti, mis suudab ajusignaalid kõneks muuta vaid ühe sekundiga. See on suur samm edasi aju ja arvuti ühendamise tehnoloogias ning on oluline edasiminek varasematest lahendustest.

Detailid:

Teadlased suudavad nüüd ajusignaale peaaegu hetkega sõnadeks tõlkida. Varem suudeti seda teha 8-sekundilise viivitusega.
Tehisintellekt oskab luua patsiendi varasemate salvestiste põhjal tema enda häälega kõnet, muutes tulemuse isikupärasemaks ja loomulikumaks.
Süsteem saab hakkama ka sõnadega, millest ta ei ole varem kuulnud, mis näitab, et mudel mõistab kõnemustreid, mitte ei korda lihtsalt õpitud vastuseid.

Miks see on oluline: See tehnoloogia võib muuta elu nende jaoks, kes on kaotanud kõnevõime näiteks ALSi, insuldi või halvatuse tõttu. Latentsusprobleemi lahenedes võib see tehnoloogia märkimisväärselt parandada patsientide elukvaliteeti ja suhtlemisvõimet ning taastada kõne sellisel moel, mida varem peeti võimatuks.