
AI ir didelių kalbų modeliai (LLM), kurie juos maitina, turi daugybę naudingų programų, tačiau visiems pažadams jie nėra labai patikimi.
Niekas nežino, kada ši problema bus išspręsta, todėl prasminga, kad mes matome, kad pradedantieji ieško galimybės padėti įmonėms įsitikinti, kad LLM varomos programos, kurias jie moka už darbą, kaip numatyta.
Londone įsikūrusi „Startup Composo“ mano, kad ji turi didelę dalį bandymo išspręsti šią problemą dėl savo pasirinktinių modelių, kurie gali padėti įmonėms įvertinti programų, kurias maitina LLMS, tikslumą ir kokybę.
Bendrovės panašiai kaip „AgentA“, „Freeplay“, „Humanloop“ ir „Langsmith“, kurie visi teigia siūlantys tvirtesnę, LLM pagrįstą alternatyvą žmonių testavimui, kontroliniams sąrašams ir esamoms stebėjimo priemonėms. Tačiau „Composo“ teigia, kad jis skiriasi, nes siūlo ir kodą, ir API. Tai pastebėtina todėl, kad tai praplečia savo potencialios rinkos apimtį – jūs neturite būti kūrėjas, kad galėtumėte ja naudotis, o domenų ekspertai ir vadovai gali įvertinti AI programas dėl neatitikimų, kokybės ir tikslumo.
Praktiškai „Composo“ sujungia apdovanojimo modelį, apmokytą išvestyje, kurį asmuo norėtų pamatyti iš AI programos su apibrėžtu kriterių rinkiniu, būdingu tam programai, kad sukurtų sistemą, kuri iš esmės įvertintų programos rezultatus pagal tuos kriterijus. Pavyzdžiui, medicininė „Triage Chatbot“ gali turėti savo kliento nustatytas pasirinktines gaires, kad patikrintų, ar nėra raudonos vėliavos simptomų, o „Composo“ gali įvertinti, kaip nuolat programa.
Neseniai bendrovė pradėjo viešą „Composo Align“ API – modelį, skirtą įvertinti LLM programas pagal bet kokius kriterijus.
Panašu, kad strategija šiek tiek veikia: jos klientų bazėje yra tokių pavadinimų kaip „Accenture“, „Palantir“ ir „McKinsey“, o neseniai surinko 2 mln. USD prieš sėklą. Nedidelė čia surinkta suma nėra neįprasta, kad pradedamas šiandienos rizikos klimatas, tačiau ji pastebima, nes tai yra AI žemė, galų gale – finansavimas tokioms įmonėms yra gausus.
Tačiau, pasak „Composo“ įkūrėjo ir generalinio direktoriaus Sebastiano Foxo, palyginti mažas skaičius yra tas, kad startuolio požiūris nėra ypač reikalaujantis kapitalo.
„Bent jau ateinančius trejus metus mes nenumatome, kad auginame šimtus milijonų, nes daug žmonių kuria fondo modelius ir tai daro labai efektyviai, ir tai nėra mūsų USP“, – teigė buvęs „McKinsey“ konsultantas Foxas. „Vietoj to, kiekvieną rytą, jei atsibusiu ir pamatysiu naujienų kūrinį, kurį„ Openai “padarė savo modeliuose, tai yra naudinga mano verslui“.
Turėdamas „Fresh Cash“, „Composo“ planuoja išplėsti savo inžinerijos komandą (vadovaujama įkūrėjo ir CTO Luke'o Markhamo, buvusio mašinų mokymosi inžinieriaus „GraphCore“), įsigyja daugiau klientų ir sustiprina savo MTTP pastangas. „Šių metų pagrindinis dėmesys skiriamas daug daugiau kaip technologijos, kurią dabar turime tose įmonėse, mastelio keitimą“, – teigė Fox.
„British AI“ prieš sėklą „Twin Path Ventures“ vedė „Seed Round“, kuris taip pat dalyvavo „JVH Ventures“ ir „EWor“ dalyvavime (pastarasis palaikė startuolį per savo akceleratoriaus programą). „„ Composo “atkreipia dėmesį į kritinę kliūtį priėmus įmonės AI“, – sakoma „Twin Path“ atstovas „Twin Path“ atstovas.
Ši kliūtis yra didelė bendro AI judėjimo problema, ypač įmonių segmente, sakė Fox. „Žmonės per daug jaudinasi ir dabar galvoja:„ Na, ar tai tikrai ką nors pakeičia apie mano verslą dabartine forma? Nes jis nėra pakankamai patikimas ir nėra pakankamai nuoseklus. Ir net jei taip yra, jūs negalite man įrodyti, kiek tai yra “, – sakė jis.
Dėl šios kliūties „Composo“ gali būti vertingesnis įmonėms, norinčioms įgyvendinti AI, tačiau tai gali patirti reputacijos riziką. „Fox“ sako, kad būtent todėl jo įmonė pasirinko pramonės agnostiką, tačiau vis tiek turi rezonansą dėl atitikties, teisinės, sveikatos priežiūros ir saugumo erdvių.
Kalbant apie savo konkurencinį griovį, Fox mano, kad moksliniams tyrimams ir plėtrai reikalingos norint patekti čia nėra nereikšminga. „Yra ir modelio architektūra, ir duomenys, kuriuos mes panaudojome jį mokyti“, – sakė jis ir paaiškino, kad kompozitų derinimas buvo apmokytas „dideliame ekspertų vertinimų duomenų rinkinyje“.
Vis dar kyla klausimas, ką technologijų milžinai galėtų padaryti, jei jie tiesiog pasinaudojo savo didžiulėmis karo skryniomis, kad galėtų patekti į šią problemą, tačiau „Composo“ mano, kad ji turi pirmąjį pranašumą. „Kitas (dalykas) yra duomenys, kuriuos laikui bėgant kaupiame“, – sakė Foxas, nurodydamas, kaip „Composo“ sukūrė vertinimo nuostatas.
Kadangi jis įvertina programas pagal lanksčią kriterijų rinkinį, „Composo“ taip pat vertina save kaip geriau pritaikyti agento AI augimą nei konkurentai, kurie naudoja labiau suvaržytą požiūrį. „Mano nuomone, mes tikrai nesame tokioje scenoje, kur agentai dirba gerai, ir tai iš tikrųjų bandome padėti išspręsti“, – sakė Fox.