ChatGPT Agent juhib ise oma arvutit ja täidab keerulisi ülesandeid

OpenAI annab ChatGPT-le uue arvutioskuse

Pilt esitleb kahe diagrammiga slaidi pealkirjaga 'Intelligence Benchmarks'. Vasakpoolne diagramm näitab 'Humanity's Last Exam' tulemusi ja parempoolne diagramm 'FrontierMath (Tier 1-3)' tulemusi. Iga diagrammi all on erinevad kategooriad, millel on seotud andmetulbad. Diagrammid on paigutatud sinise raamiga vaatesse.
Pildi allikas: OpenAI

 

Ülevaade: OpenAI tutvustas just suurt uuendust nimega ChatGPT Agent, mis võimaldab tehisintellektil hallata oma arvutit keeruliste ülesannete lahendamiseks.

 

Detailid:

  • Agent ühendab sellised tööriistad nagu Operator ja Deep Research ühtsesse süsteemi, mis suudab vahetada erinevate ülesannete vahel nagu veebilehtede sirvimine, programmeerimine ja dokumentide loomine.
  • OpenAI demonstratsioon näitas, kuidas Agent saab broneerida reise, luua slaide, sooritada oste, arendada tooteid ja teha tellimusi.
  • Agent saab ühendada end rakendustega nagu Gmail ja GitHub ning kasutada API-sid, et täita erinevaid ülesandeid ja hallata ligipääse.
  • Agent saavutas kõrgeid tulemusi erinevates testides ja näitab tipptasemel saavutusi.
  • OpenAI on kasutanud rangeid turvameetmeid, sealhulgas reaalajas jälgimist ja kasutaja kinnitust, et tagada Agent’i turvalisus.

 

Miks see on oluline: OpenAI arendab agentide tehnoloogiat, andes ChatGPT-le rohkem arvutusvõimet, et see saaks rohkemat teha. See on suur edasiminek ja annab aimu, milline võiks tehisintellekti tulevik välja näha.

Reflection AI Asimovi agent koodi mõistmiseks

Baarigraafik, mis näitab Asimovi võidumäära võrreldes teiste agentidega. Esimene rida 'Cursor Ask' näitab 82% eelistust Asimovi suhtes, teine rida 'Claude Code (Sonnet 3.7)' 69% ja kolmas rida 'Claude Code (Sonnet 4)' 63%. Tulemused on esitatud protsentides, kus rohelised osad näitavad Asimovi poolt eelistatud vastuseid ja hallid osad konkurentide poolt eelistatud vastuseid. Alumine tekst märgib, et hindamine võrdleb ainult agentide kvaliteeti avatud lähtekoodiga baasidega.
Pildi allikas: Reflection AI

 

Ülevaade: Reflection AI, mille lõid endised Google DeepMindi teadlased, tuli välja Asimoviga – iseseisva programmiga, mis mõistab koodi, äriloogikat ja meeskonna teadmisi. Nende sõnul töötab see paremini kui teised sarnased konkureerivad tooted.

 

Detailid:

  • Asimov uurib lisaks koodile ka arhitektuuri dokumente, e-maile, Slacki vestlusi ja projektiraporteid, luues pidevalt uueneva teadmistebaasi insenerimeeskondade jaoks.
  • „Asimov Memories“ lubab meeskondadel säilitada ja uuendada teadmisi lihtsate keeleliste küsimustega, mis on kaitstud rollipõhiste ligipääsu õigustega.
  • Pimetesti tehes eelistasid Asimovi 82% arendajatest, olles parem Claude Code’ist tänu „otsija“ agentidele, kes koguvad infot ja saadavad selle edasi kesksele otsustajale.
  • Reflection AI loojad Misha Laskin ja Ioannis Antonoglou töötasid varem Google DeepMindi tuntud projektide kallal, nagu Gemini ja AlphaGo.

 

Miks see on oluline: Enamik kooditööriistu keskendub uue koodi kirjutamisele, aga Reflection usub, et olulisem on olemasoleva koodi mõistmine. Asimov suudab hästi hallata teadmistebaase, mis võib tulevikus aidata tehisintellektil toimida justkui meeskonna „mäluna“ – muutes tarkvara arendamise ja haldamise lihtsamaks.

OpenAI saavutas programmeerimise võistlusel teise koha

Kahe meheline rühm seisab koos ja hoiab käes suurt musta tahvlit kirjaga 'World Tour Finals 2025 Heuristic Champion'. Üks neist hoiab mikrofoni ja teine kannab medalit. Taustal ekraanil on tekst '1st Prize Psyo 1,913,842,576,858'. Vasakul küljel on näha sinine õhupall ja number '10B' kuldsetes õhupallides.
Pildi allikas: Psyho (@FakePsyho on X)

 

Ülevaade: OpenAI iseseisev programmeerimisagent sai teise koha Tokyo AtCoder World Touri finaalil. Võitjaks tuli Poolast pärit Psyho pärast 10-tunnist võistlust.

 

Detailid:

  • Võistlejad pidid lahendama keerulisi ülesandeid, juhtides roboteid läbi labürindi ja püüdes seejuures teha võimalikult vähe liigutusi.
  • Psyho võitis 9,5% eduga ja kirjutas hiljem, et “inimkond on veel üle”, kuigi ta magas kolme päeva jooksul vaid 10 tundi.
  • See oli esimene kord, kui tehisintellekt osales täiesti iseseisvalt ilma inimeste abita ja võistles tippkoodijatega.
  • Sakana AI katsetas oma ALE-Agentit ja oleks kokkuvõttes viiendaks tulnud.

 

Miks see on oluline: OpenAI juht Sam Altman usub, et nende tehisintellektist saavad varsti maailma parimad koodikirjutajad. Seekordne tulemus toetab seda mõtet. Kuigi Psyho veel võitis, võib see olla üks viimaseid kordi, kui inimene alistab AI-d progemises.