LM Arena võltsib Google'i ja OpenAI tulemusi?

May 2, 2025

LM Arena võltsib Google’i ja OpenAI tulemusi?

Uuring seab kahtluse alla juhtiva tehisintellekti võrdlusmõõdiku

Infograafik, mis sisaldab graafikuid ja skeeme andmete juurdepääsu ebavõrdsuse, ülemäärase -õppe riski, punktide valimise ning mudelite eemaldamise kohta. Vasakul ülemises nurgas olev diagramm näitab, et suletud tarkvaraga teenusepakkujad saavad kõige rohkem kasu vabalt kättesaadavast kogukonnaandmetest. Ülemäärase -õppe riskiga diagramm näitab andmete vähest mõju Arena jõudlusele. Punktide 'valimise' graafik illustreerib, kuidas eraõiguslik testimine võimaldab avaldada ainult parimaid tulemusi. Mudelite eemaldamise graafik näitab, et 66% vaikides eemaldatud mudelitest on kaalult või päritolult avatud. Paremal on 'Leaderboard Illusion' diagramm, illustreerides poliitikaid, mis moonutavad edetabeleid. — *Pildi allikas: Cohere Labs*

Ülevaade: Uus uuring Cohere Labsi, MIT-i, Stanfordi ja teiste asutuste teadlastelt väidab, et LMArena (populaarne tehisintellekti võrdlusmõõdik) annab suurtele tehnoloogiafirmadele ebaõiglase eelise ja võib selle tõttu edetabeleid moonutada.

Detailid:

Uuringu järgi testivad firmad nagu Meta, Google ja OpenAI Arenal salaja mitut mudeliversiooni, et näidata parimaid tulemusi.
Samuti eelistatakse tippfirmade mudeleid – Google’i ja OpenAI omad said üle 60% kogu tähelepanust.
Katsetest selgus, et ligipääs Arena andmetele parandab tulemusi just Arena ülesannetes, mis võib viidata liigsele kohandamisele.

Miks see on oluline: LMArena lükkas uuringu tagasi ja ütles, et nende edetabel peegeldab päris kasutajate eelistusi. Siiski võivad sellised väited kahjustada platvormi usaldusväärsust, sest see mõjutab, kuidas mudeleid tajutakse. Koos Llama 4 Mavericki ümber puhkenud skandaaliga näitab see, et tehisintellekti hindamine pole nii sirgjooneline, nagu võib paista.

Microsofti uued väikesed mõtlemismudelid

Baarigraafik, kus võrreldakse erinevate mudelite jõudlust neljas kategoorias: AIME 25, HMMT Feb 25, OmniMath ja GPQA. Värvilised tulbad kujutavad mudelite Phi-4 14B, Phi-4-reasoning 14B, Phi-4-reasoning-plus 14B, DeepSeek-R1 Distill 70B, DeepSeek-R1 671B MoE, o1-mini ja o3-mini tulemusi. Tulemused varieeruvad iga kategooria sees, näidates erineva pikkusega tulpi ja protsentarvudega nende kohal. — *Pildi allikas: Microsoft*

Ülevaade: Microsoft tõi välja kolm uut Phi-nimelist tehisintellekti mudelit, mis on head keeruliste mõtlemisülesannete lahendamisel, edestavad tihti suuremaid konkurente ja töötavad ka telefonides ning sülearvutites.

Detailid:

Phi-4-reasoning põhiversioon, millel on vaid 14 miljardit parameetrit, on tulemustes parem kui OpenAI o1-mini ja suudab konkureerida isegi DeepSeek’i 671 miljardi parameetri mudeliga.
Väiksem Phi-4-mini-reasoning, millel on 3,8 miljardit parameetrit, sobib kasutamiseks ka telefonides ja saavutab tulemusi, mis on võrreldavad suuremate 7 miljardi parameetri mudelitega.
Kõik kolm mudelit on avatud lähtekoodiga ja vabalt kasutatavad ning muudetavad arendajatele.

Miks see on oluline: Microsoft arendab edasi Phi mudeleid, et tuua nutikad mõtlemisvõimelised tehisintellektid ka telefonidesse ja sülearvutitesse. Kuigi see tehnoloogia on alles algusjärgus, võivad just Microsofti Copilot+ arvutid sellest kõige rohkem võita.

Amazoni uus õpetajamudel Nova Premier uus Nova Premier

Vasakul on Nova Premier protsess, mis viib „Kasutaja küsimusest“ läbi „Investeerimisassistendi“ mitme analüüsitööriista, nagu „Turuanalüüs“, „Riskianalüüs“ ja „Sentimendianalüüs“, ja lõpeb vastusega kasutajale. Paremal on Nova Micro (Destilleeritud) protsess, mis saavutab sama tulemuse kiiremini, läbides ka erinevad analüüsitööriistad ja jõudes vastuseni. Mõlemad protsessid näitavad ühendusjooni erinevate analüüsietappide vahel. — *Pildi allikas: Amazon*

Ülevaade: Amazon lanseeris äsja Nova Premier’i – oma senistest kõige arenenuma tehisintellekti mudeli, mis on loodud nii keeruliste ülesannete täitmiseks kui ka väiksemate mudelite õpetamiseks.

Detailid:

Nova Premier on multimodaalne mudel, mis suudab töödelda teksti, pilte ja videoid ning mahutab korraga ligi 750 000 sõna.
Kuigi see jääb keerulistes matemaatika, teaduse ja programmeerimise testides alla tippmudelitele nagu Gemini 2.5 Pro, on see väga hea tööriist mitme agendi töövoogude haldamiseks, eriti finants- ja investeerimisvaldkonnas.
Tänu Amazon Bedrocki tehnoloogiale saab Premieri oskusi üle kanda väiksematele mudelitele, parandades nende võimekust kuni 20%.

Miks see on oluline: Nova Premieri kaudu ei püüa Amazon konkureerida kõige nutikamate mudelitega keerulistes mõtlemisülesannetes, vaid panustab sellele kui tugevale õpetajamudelile, mis aitab parandada kogu mudelipere taset.