
Vienas iš pagrindinių ingredientų, pagamintų ChatGPT beprotiška sėkmė buvo žmonių dresuotojų armija, kuri suteikė dirbtinis intelektas modelis, pagrįstas roboto gairėmis, kaip nustatyti gerus ir blogus rezultatus. OpenAI dabar sako kad į rinkinį įtraukus dar daugiau dirbtinio intelekto, kad padėtų žmonių treneriams, dirbtinio intelekto pagalbininkai galėtų tapti protingesni ir patikimesni.
Kurdama „ChatGPT“, „OpenAI“ pradėjo naudoti mokymąsi su žmogaus grįžtamuoju ryšiu arba RLHF. Šis metodas naudoja žmonių testuotojų įvestį, kad būtų tiksliai suderintas AI modelis, kad jo išvestis būtų vertinama kaip nuoseklesnė, mažiau nepriimtina ir tikslesnė. Mokytojų teikiami įvertinimai remiasi algoritmu, kuris lemia modelio elgesį. Šis metodas pasirodė esąs labai svarbus siekiant padaryti pokalbių robotus patikimesnius ir naudingesnius bei užkertant kelią jiems netinkamai veikti.
„RLHF veikia labai gerai, tačiau turi tam tikrų pagrindinių apribojimų“, – sako su nauju darbu susijęs OpenAI tyrėjas Natas McAleese'as. Viena vertus, žmonių atsiliepimai gali būti nenuoseklūs. Kita vertus, net patyrusiems žmonėms gali būti sunku įvertinti itin sudėtingus rezultatus, pvz., sudėtingą programinės įrangos kodą. Šis procesas taip pat gali optimizuoti modelį, kad gautų išvestį, kuri atrodo įtikinama, o ne iš tikrųjų yra tiksli.
„OpenAI“ sukūrė naują modelį, patobulindama savo galingiausią pasiūlymą GPT-4, kad padėtų žmonių treneriams, kuriems pavesta įvertinti kodą. Bendrovė išsiaiškino, kad naujasis modelis, pavadintas „CriticGPT“, gali užfiksuoti klaidas, kurių žmonės nepastebėjo, ir kad teisėjai nustatė, kad jo kodo kritika yra geresnė 63 procentus atvejų. Ateityje „OpenAI“ sieks išplėsti požiūrį į sritis, kuriose nėra kodo.
„Mes pradedame dirbti, kad integruotume šią techniką į mūsų RLHF pokalbių krūvą“, – sako McAleese. Jis pažymi, kad šis metodas yra netobulas, nes „CriticGPT“ taip pat gali padaryti klaidų haliucinuodamas, tačiau jis priduria, kad ši technika gali padėti padaryti OpenAI modelius ir įrankius, tokius kaip „ChatGPT“, tikslesnius, sumažinant žmonių mokymo klaidas. Jis priduria, kad tai taip pat gali būti labai svarbi padedant dirbtinio intelekto modeliams tapti daug protingesniems, nes tai gali leisti žmonėms padėti treniruoti DI, kuris viršija jų pačių galimybes. „Ir modeliams vis tobulėjant, manome, kad žmonėms reikės daugiau pagalbos“, – sako McAleese.
Naujoji technika yra viena iš daugelio dabar kuriamų, siekiant tobulinti didelius kalbos modelius ir išspausti iš jų daugiau gebėjimų. Tai taip pat yra dalis pastangų užtikrinti, kad dirbtinis intelektas elgtųsi priimtinais būdais, net kai jis tampa pajėgesnis.
Anksčiau šį mėnesį Anthropic, OpenAI konkurentas, kurį įkūrė buvę OpenAI darbuotojai, paskelbė pažangesnę versiją savo pokalbių roboto, pavadinto Claude, dėka patobulinto modelio mokymo režimo ir jo teikiamų duomenų. Antropinis ir OpenAI taip pat turi abu neseniai reklamuota naujų tikrinimo būdų AI modeliai, kad suprastų, kaip jie pasiekia rezultatą, kad būtų geriau išvengta nepageidaujamo elgesio, pvz., apgaulės.
Naujoji technika gali padėti „OpenAI“ treniruoti vis galingesnius AI modelius, tuo pačiu užtikrinant, kad jų produkcija būtų patikimesnė ir labiau suderinta su žmogiškosiomis vertybėmis, ypač jei įmonė sėkmingai ją diegia daugiau sričių nei kodas. „OpenAI“ teigė, kad rengia kitą pagrindinį AI modelį, o bendrovė akivaizdžiai nori parodyti, kad ji rimtai siekia užtikrinti, kad jis elgtųsi. Tai seka iškilios komandos iširimas skirta ilgalaikei AI keliamai rizikai įvertinti. Komandai vadovavo Ilja Sutskeveris, vienas iš bendrovės įkūrėjų ir buvęs valdybos narys, kuris trumpam išstūmė generalinį direktorių Samą Altmaną iš įmonės, o paskui atsisakė ir padėjo jam atgauti kontrolę. Keli tos komandos nariai nuo to laiko kritikavo bendrovę dėl rizikingo judėjimo nes ji skuba kurti ir komercializuoti galingus AI algoritmus.
Dylanas Hadfieldas-MenellasMIT profesorius, tyrinėjantis būdus, kaip suderinti AI, sako, kad idėja, kad AI modeliai padėtų treniruoti galingesnius modelius, sklando jau kurį laiką. „Tai gana natūralus vystymasis“, – sako jis.
Hadfield-Menell pažymi, kad mokslininkai, kurie iš pradžių sukūrė metodus, naudojo RLHF aptarė susijusių idėjų prieš keletą metų. Jis sako, kad dar reikia pamatyti, koks jis visuotinai taikomas ir galingas. „Tai gali lemti didelius individualių galimybių šuolius, o ilgainiui tai gali būti žingsnis link efektyvesnio grįžtamojo ryšio“, – sako jis.