„Meta“ naujų AI modelių etalonai yra šiek tiek klaidinantys

Vienas iš naujų flagmanų AI modelių „Meta“, išleista šeštadienį, „Maverick“, užima antrąją vietą LM arenoje. Tačiau atrodo, kad „Maverick“ versija, kurią „Meta“ dislokuota „LM Arena“, skiriasi nuo versijos, kuri yra plačiai prieinama kūrėjams.

Kaip keli AI tyrėjai atkreipė dėmesį į X, Meta savo pranešime pažymėjo, kad „Maverick on LM“ arenoje yra „eksperimentinės pokalbių versija“. Tuo tarpu oficialioje „Llam“ tinklalapyje esanti diagrama atskleidžia, kad „Meta LM“ arenos testavimas buvo atliktas naudojant „Llam 4 Maverick“, optimizuotą pokalbiams “.

Kaip jau rašėme anksčiau, dėl įvairių priežasčių „LM Arena“ niekada nebuvo patikimiausia AI modelio veiklos priemonė. Tačiau PG įmonės paprastai neprisipažino ar kitaip tiksliai sureguliavo savo modelius, kad geriau įvertintų „LM“ arenoje-arba bent jau neprisipažino.

Modelio pritaikymo etalonui pritaikymo, jo sulaikymo ir to paties modelio „vanilės“ varianto problema yra ta, kad kūrėjams yra sudėtinga tiksliai nuspėti, kaip gerai modelis veiks tam tikrame kontekste. Tai taip pat klaidina. Idealiu atveju etalonai – apgailėtinai netinkami, kokie jie yra – pateikia vieno modelio stipriųjų ir silpnybių vaizdą įvairiose užduotyse.

Iš tikrųjų X tyrėjai pastebėjo ryškius viešai atsisiunčiamų „Maverick“ elgesio skirtumus, palyginti su modeliu, surengtu LM arenoje. Panašu, kad „LM Arena“ versija naudoja daugybę jaustukų ir pateikia neįtikėtinai ilgalaikius atsakymus.

Gerai, lama 4 yra def pločio virta lol, kas yra šis yap miestas pic.twitter.com/y3gvhbvz65
– Nathanas Lambertas (@Natolambert) 2025 m. Balandžio 6 d

Dėl tam tikrų priežasčių arenoje „Llam 4“ modelis naudoja daug daugiau jaustukų
kartu. PG, atrodo geriau: pic.twitter.com/f74odx4ztt
– „Tech Dev“ užrašai (@TechDevNotes) 2025 m. Balandžio 6 d

Mes susisiekėme su „Meta“ ir „Chatbot“ arena – organizacija, kuri palaiko LM areną komentuoti.

Source link

Related Stories

„Applied Computing“ nori suteikti naftos ir dujų operatoriams AI modelį visai gamyklai

„Interneto tėvas“ pagaliau išeina į pensiją

Malaizijos dirbtinio intelekto agentų sukurta pranešimų siuntimo programa Respond.io surinko 62,5 mln.

Jūs praleidote naujienas

Kanados miškų gaisrų dūmai dangų paverčia liūdnai oranžine spalva rytinėje JAV dalyje

„Applied Computing“ nori suteikti naftos ir dujų operatoriams AI modelį visai gamyklai

„Ford“ pristatys 5 naujus keleivinius automobilius

iPSC Lentiviral Transduction Protocol with GFP/Puromycin Selection