Uuring seab kahtluse alla juhtiva tehisintellekti võrdlusmõõdiku

Ülevaade: Uus uuring Cohere Labsi, MIT-i, Stanfordi ja teiste asutuste teadlastelt väidab, et LMArena (populaarne tehisintellekti võrdlusmõõdik) annab suurtele tehnoloogiafirmadele ebaõiglase eelise ja võib selle tõttu edetabeleid moonutada.
Detailid:
- Uuringu järgi testivad firmad nagu Meta, Google ja OpenAI Arenal salaja mitut mudeliversiooni, et näidata parimaid tulemusi.
Samuti eelistatakse tippfirmade mudeleid – Google’i ja OpenAI omad said üle 60% kogu tähelepanust.
- Katsetest selgus, et ligipääs Arena andmetele parandab tulemusi just Arena ülesannetes, mis võib viidata liigsele kohandamisele.
Miks see on oluline: LMArena lükkas uuringu tagasi ja ütles, et nende edetabel peegeldab päris kasutajate eelistusi. Siiski võivad sellised väited kahjustada platvormi usaldusväärsust, sest see mõjutab, kuidas mudeleid tajutakse. Koos Llama 4 Mavericki ümber puhkenud skandaaliga näitab see, et tehisintellekti hindamine pole nii sirgjooneline, nagu võib paista.
Microsofti uued väikesed mõtlemismudelid

Ülevaade: Microsoft tõi välja kolm uut Phi-nimelist tehisintellekti mudelit, mis on head keeruliste mõtlemisülesannete lahendamisel, edestavad tihti suuremaid konkurente ja töötavad ka telefonides ning sülearvutites.
Detailid:
- Phi-4-reasoning põhiversioon, millel on vaid 14 miljardit parameetrit, on tulemustes parem kui OpenAI o1-mini ja suudab konkureerida isegi DeepSeek’i 671 miljardi parameetri mudeliga.
- Väiksem Phi-4-mini-reasoning, millel on 3,8 miljardit parameetrit, sobib kasutamiseks ka telefonides ja saavutab tulemusi, mis on võrreldavad suuremate 7 miljardi parameetri mudelitega.
- Kõik kolm mudelit on avatud lähtekoodiga ja vabalt kasutatavad ning muudetavad arendajatele.
Miks see on oluline: Microsoft arendab edasi Phi mudeleid, et tuua nutikad mõtlemisvõimelised tehisintellektid ka telefonidesse ja sülearvutitesse. Kuigi see tehnoloogia on alles algusjärgus, võivad just Microsofti Copilot+ arvutid sellest kõige rohkem võita.
Amazoni uus õpetajamudel Nova Premier uus Nova Premier

Ülevaade: Amazon lanseeris äsja Nova Premier’i – oma senistest kõige arenenuma tehisintellekti mudeli, mis on loodud nii keeruliste ülesannete täitmiseks kui ka väiksemate mudelite õpetamiseks.
Detailid:
- Nova Premier on multimodaalne mudel, mis suudab töödelda teksti, pilte ja videoid ning mahutab korraga ligi 750 000 sõna.
- Kuigi see jääb keerulistes matemaatika, teaduse ja programmeerimise testides alla tippmudelitele nagu Gemini 2.5 Pro, on see väga hea tööriist mitme agendi töövoogude haldamiseks, eriti finants- ja investeerimisvaldkonnas.
- Tänu Amazon Bedrocki tehnoloogiale saab Premieri oskusi üle kanda väiksematele mudelitele, parandades nende võimekust kuni 20%.
Miks see on oluline: Nova Premieri kaudu ei püüa Amazon konkureerida kõige nutikamate mudelitega keerulistes mõtlemisülesannetes, vaid panustab sellele kui tugevale õpetajamudelile, mis aitab parandada kogu mudelipere taset.