OpenAI jõudis matemaatika olümpiaadil kuldmedalini

OpenAI sai matemaatikas kuldmedali

Maasikas, mille küljes on medal, seisab pjedestaalil sinise taeva ja väikeste pilvede taustal.
Pildi allikas: OpenAI

 

Ülevaade: OpenAI katsetas oma tehisintellekti 2025. aasta matemaatikaolümpiaadi ülesannetega ja saavutas tulemuse, millega oleks võitnud kuldmedali

 

Detailid:

  • Tehisintellekti testiti samamoodi nagu inimesi – tal ei olnud lubatud kasutada abivahendeid ega internetti ning ta pidi lahendusi selgitama vabas vormis tekstina kahel 4,5-tunnisel eksamil.
  • OpenAI sõnul lahendas mudel edukalt 5 ülesannet 6-st ja teenis 35 punkti 42-st, mis oleks andnud kuldmedali.
  • Kõiki vastuseid hindas kolm endist olümpiaadimedalisti ning lõpphinne pandi nende ühise arvamuse põhjal.
  • Google DeepMind on aga OpenAI väite vaidlustanud, öeldes, et rahvusvahelistel olümpiaadidel on kindel hindamissüsteem, mida antud juhul ei järgitud.

 

Miks see on oluline: Kuigi selle saavutuse üle on vaieldud, on muljetavaldav, et tehisintellekt suudab lahendada rahvusvahelise matemaatikaolümpiaadi tasemel ülesandeid kuldmedali vääriliselt. See näitab, et AI-l on suur potentsiaal viia uute läbimurreteni, isegi kui see mudel pole veel avalikult kasutatav.

ARC uus interaktiivne AGI test

Kolm mängu mustal taustal, millel on ruudustik. Vasakpoolne mäng pealkirjaga "Elementary Logic" sisaldab värvilisi ruute tekstiga "FT09". Keskmine mäng pealkirjaga "Embodied Agentic" näitab labürinti tekstiga "LS20". Parempoolne mäng pealkirjaga "Orchestration" sisaldab vertikaalseid jooni ja ruudukujulisi elemente tekstiga "VC33". Pealkirjaks on "ARC-AGI-3 Preview Games". Alumisel serval on tekst "Play · Build · Compete".
Pildi allikas: ARC Prize

 

Ülevaade: ARC Prize tutvustas uut testi nimega ARC-AGI-3, mis kontrollib, kui hästi suudavad tehisintellekti programmid kohaneda uutes olukordades. Esialgsed tulemused näitavad, et AI-d ei saavuta veel inimeste taset.

 

Detailid:

  • Test koosneb kolmest mängust, mis vaatavad, kuidas AI loob maailma mudelit ja planeerib pikaajalisi samme vähese tagasiside abil.
  • Katses ei anta programmidele juhiseid, nii et nad peavad ise õppima, katsetades ja eksides, sarnaselt sellele, kuidas inimesed uusi teadmisi omandavad.
  • Varased katsed näitavad, et isegi tipp AI-d nagu OpenAI o3 ja Grok 4 ei suuda lihtsaid mängutasemeid läbida, mida inimesed suudavad kergesti.
  • ARC Prize avas ka avaliku konkursi, kutsudes kogukonda looma AI-sid, mis suudaksid testis võimalikult palju tasemeid läbida ja näidata, kui arenenud on tehisintellekti mõtteloogika.

 

Miks see on oluline: See uus test aitab liikuda edasi ainult kindlate oskuste hindamisest ja suunab tähelepanu selliste nutikate tehisintellektide arendamisele, mis suudavad üldistada ja uutes olukordades hästi hakkama saada – nagu ka inimesed.

Tehisintellekti saab psühholoogiliste trikkidega mõjutada

Ribadiagramm, mis kuvab protsentuaalset järgimist kahe rühma vahel: hallid ribad tähistavad kontrollrühma ja tumedad ribad tähistavad ravirühma. X-teljel on kategooriad: Authority, Commitment, Liking, Reciprocity, Scarcity, Social Proof, Unity ja Aggregate. Y-teljel on järgimise protsent. Kategooriates Commitment ja Aggregate on ravirühma järgimine kõige kõrgem, samas kui kontrollrühm jääb alla. Diagrammil on veapiiridega varustatud ribad.
Pildi allikas: Wharton Generative AI Labs

 

Ülevaade: Whartoni Generatiivse AI Laborid näitasid, et tehisintellektimudelid, nagu GPT-4o-mini, suudavad vastata keerulistele küsimustele, kasutades samu mõjutusvõtteid, mis töötavad ka inimeste peal.

 

Detailid:

  • Teadlased kasutasid mõjutamise põhimõtteid (autoriteet, pühendumus, meeldimine, vastastikkus, nappus ja ühtekuuluvus) 28 000 vestluses 4o-mini mudeliga.
  • Vestlustes püüti AI-d veenda vastama kahele keerulisele küsimusele: üks, mis võis kasutajat solvata, ja teine, mis puudutas piiratud materjalide juhiseid.
  • Leiti, et neid põhimõtteid rakendades suurenes AI vastamine keerulistele küsimustele 33%-lt 72%-ni.
  • Eriliselt mõjusid pühendumus ja nappus, mis kasvatasid vastamise määra vastavalt 19% ja 13% -lt 100% ja 85%-ni.

 

Miks see on oluline: Uuringust selgub, et tehisintellekti saab mõjutada samamoodi nagu inimesi. Kuna AI areneb kiiresti, on oluline, et AI arendajad teeksid koostööd sotsiaalteadlastega, et paremini mõista selle käitumist ja luua kaitseid manipulatsiooni vastu.