GPT-4.5 on kohal: Päris hea, aga ootasime rohkem

veebruar 28, 2025

GPT-4.5 on kohal: Päris hea, aga ootasime rohkem

Emotsionaalne OpenAI GPT-4.5

Vasakul pool olev tekst kuulub GPT-4.5-le ja väljendab empaatiat testi läbikukkumise järel, julgustades rääkima juhtunust või leidma hajutamist. Paremal pool on GPT-4, mis pakub praktilisi nõuandeid: analüüsida juhtunut ning otsida tuge sõpradelt, perelt või koolinõustajalt. — *Pildi allikas: OpenAI*

Ülevaade: OpenAI avaldas just GPT-4.5 (nimega Orion), mis on nende suurim mudel seni ning kasutab teamiste arendamiseks ja parema emotsionaalse intelligentsi saavutamiseks järelevalveta õpet.

Detailid:

OpenAI väidab, et GPT-4.5 pakub loomulikumat vestluskogemust, paremat inimese kavatsuste mõistmist ja suuremat emotsionaalset intelligentsi.
Mudelil esineb varasemast vähem hallutsinatsioone ja annab täpsemaid vastuseid.
Mudel ei ole matemaatika või teaduse valdkonnas eelmistest mudelitest parem, kuid ületab o3-mini ja o1 SWE-Lancer’i mudeleid.
Hetkel saavad GPT-4.5-le ligipääsu ainult Pro-kasutajad. Plus ja Team kasutajad saavad ligipääsu järgmisel nädalal.
Märkimisväärne on see, et selle mudeli API hind ülimalt kõrge: 75 ja 150 dollarit vastavalt miljoni sisend tokeni ning väljund tokeni kohta. Võrdluseks, GPT-4o maksab vaid 2,50/10 dollarit.

Miks see on oluline: Kuigi võrdlusmeetodid ja hinnad võivad mõnele pettumust valmistada, tundub 4.5 olevat pigem väike iseloomuviimistlus kui suur edasiminek. Kõrge hind ja tagasihoidlikud uuendused võivad viidata sellele, et mudeli arendamine ilma suuremate muutusteta on jõudnud lõpule.

Tencenti uus “kiiresti mõtlev” mudel

Tabel, mis võrdleb erinevaid keelemudeleid mitmes kategoorias nagu teadmised, arutlemine, matemaatika, kodeerimine, hiina keel ja joondamine. Kategooriad sisaldavad alamosasid nagu MMLU, SimpleQA, BBH, MATH, HumanEval, C-Eval jne. Iga kategooria ja alamosa kõrval on erinevate mudelite skoorid, sealhulgas Hunyuan-TurboS, GPT4o-0806, Claude-3.5, Llama3.1-405B ja DeepSeek V3. Näiteks Hunyuan-TurboS sai 89,5 MMLU-s, Claude-3.5 sai 92,6 BBH-s ja DeepSeek V3 sai 95,0 HumanEval-s. — *Pildi allikas: Tencent*

Ülevaade: Hiina tehnoloogiahiid Tencent avaldas Hunyuan Turbo S-i, uue kiiresti mõtleva tehisintellekti mudeli, mis on loodud kiiresti vastama ning saavutab kaks korda kiiremad tulemused ning säilitab samas juhtivate mudelite võimekuse.

Detailid:

Turbo S mudelit võib võrrelda mudelitega nagu DeepSeek V3, GPT-4o ja 3.5 Sonnet teadmistes, matemaatikas ja loogilises mõtlemises, vaatamata kiirusele.
Tencent on oluliselt langetanud uue mudeli hinda, muutes selle eelmise mudeliga võrreldes märgatavalt odavamaks.
Ettevõte valmistub lansseerima ka T1 loogilise mõtlemise mudelit, et oleks olemas kaks erinevat mudelit erinevateks kasutusjuhtudeks.
Lansseering toimub ajal, mil Hiina tehisintellekti konkurents tiheneb, DeepSeek valmistub uue mudeli väljalaskmiseks ning Alibaba tutvustas sel nädalal QwQ-Max-i loogiliseks mõtlemiseks.

Miks see on oluline: Veel hiljuti olid loogilise mõtlemise mudelid uus ja põnev teema. Nüüd eristatakse kiiret ja aeglast mõtlemist. DeepSeek R1 on toonud Hiina tehisintellekti maailma tähelepanu alla ning konkurendid püüavad kiiresti liidreid edestada – USA kiipide piirangud ei paista seda pidurdavat.

Ideogram plaanib uue mudeliga kiirust tõsta

Robot hoiab ajalehte, millel on suur kiri 'THE RUNDOWN TESTS IDEOGRAM 2A'. Taustal on mugavalt sisustatud elutuba, kus on värvilised diivanid, padjad, lillevaas ja seintel raamitud pildid. — *Pildi allikas: Ideogram*

Ülevaade: Ideogram lanseeris oma 2a mudeli, mis on märkimisväärne uuendus tekst-pildiks platvormile. See vähendab oluliselt genereerimisaega ja -kulu ning säilitab samal ajal kõrge kvaliteediga väljundid.

Detailid:

2a genereerib pildi väljundid vaid 10 sekundiga, veelgi kiirem 2a Turbo mudel pakub kaks korda kiiremat genereerimist.
Uus mudel särab graafilises disainis ja teksti genereerimisel, mis suudab luua sisu nagu kodulehed, filmi plakatid ja reklaamid.
See on optimeeritud fotorealismi jaoks ning hinnatud 50% odavamalt võrreldes Ideogram 2.0-ga nii API kui ka veebikasutuse puhul.
Kasutajad saavad sellele ligi läbi Ideogram’i veebplatvormi, API või rakenduste nagu Freepik, Poe ja Gamma.

Miks see on oluline: Kuigi enamik pildigeneraatorid teevad ikka õigekirjavigu, viib Ideogram’i uus versioon graafilise disaini ja teksti genereerimise täiesti uuele tasemele. Need uuendused avavad loomingulise töö jaoks uue peatüki.