6 parimat eelkoolitatud mudelit tööks ja äriks - |Tehnoloogia selgitus|Programmeerimine|

Teiesugused lugejad aitavad MUO-d toetada. Kui teete ostu meie saidil olevate linkide abil, võime teenida sidusettevõtte komisjonitasu. Loe rohkem.

Tõhusa ja usaldusväärse tehisintellekti väljaõppe barjäär on tänu paljude eelkoolitatud mudelite avalikustamisele oluliselt langenud. Eelkoolitatud mudelite abil saavad sõltumatud teadlased ja väiksemad ettevõtted protsesse sujuvamaks muuta, tootlikkust tõsta ja tehisintellekti kasutamise kaudu väärtuslikke teadmisi saada.

MUO päeva video SISUGA JÄTKAMISEKS KERIMISE

Nüüd on palju eelkoolitatud mudeleid, mida saate kasutada ja täpsustada. Sõltuvalt teie konkreetsest probleemist võite soovida kasutada üht mudelit teise asemel. Kuidas siis teada saada, millist eelkoolitatud mudelit kasutada?

Otsustamise hõlbustamiseks on siin mõned kõige populaarsemad eelkoolitatud mudelid, mida saate oma töö ja ettevõtte tootlikkuse suurendamiseks kasutada.

1. BERT (transformerite kahesuunalised kodeerijad)

BERT on kodeerija trafo, mis muutis loomuliku keele töötlemise (NLP) oma enesetähelepanumehhanismiga revolutsiooniliseks. Erinevalt traditsioonilistest korduvatest närvivõrkudest (RNN), mis töötlevad lauseid ühe sõna järel, võimaldab BERT-i enesetähelepanu mehhanism mudelil kaaluda sõnade tähtsust järjestuses, arvutades nende vahel tähelepanu skoorid.

BERTi mudelitel on võime mõista sõnade jada sügavamat konteksti. See muudab BERT-i mudelid ideaalseks rakenduste jaoks, mis nõuavad võimsat kontekstipõhist manustamist ja millel on tugev jõudlus mitmesugustes NLP-ülesannetes, nagu teksti klassifitseerimine, nimega olemi tuvastamine ja küsimustele vastamine.

BERTi mudelid on tavaliselt suured ja nende koolitamiseks on vaja kallist riistvara. Ehkki seda peetakse paljude NLP-rakenduste jaoks parimaks, on BERT-mudelite koolitamise negatiivne külg see, et protsess on sageli kallis ja aeganõudev.

2. DistilBERT (destilleeritud BERT):

Kas soovite BERTi mudelit viimistleda, kuid teil pole selleks raha ega aega? DistilBERT on BERTi destilleeritud versioon, mis säilitab umbes 95% oma jõudlusest, kasutades ainult poole vähem parameetreid!

DistilBERT kasutab õpetaja-õpilase koolituse lähenemist, kus BERT on õpetaja ja DistilBERT õpilane. Koolitusprotsess hõlmab õpetaja teadmiste destilleerimist õpilasele, koolitades DistilBERTi, et jäljendada BERT-i käitumist ja väljundi tõenäosusi.

Tänu destilleerimisprotsessile ei ole DistilBERTil märgitüüpi manustusi, sellel on vähenenud tähelepanupead ja väiksemad edasisuunamiskihid. See saavutab oluliselt väiksema mudeli suuruse, kuid ohverdab mõningase jõudluse.

Nii nagu BERT, on DistilBERT kõige paremini kasutatav teksti klassifitseerimisel, nimega olemi tuvastamisel, teksti sarnasuses ja ümbersõnastamisel, küsimustele vastamisel ja sentimentide analüüsil. DistilBERT-i kasutamine ei pruugi anda teile sama täpsust kui BERT-i puhul. Kuid DistilBERTi kasutamine võimaldab teil oma mudelit palju kiiremini peenhäälestada, kulutades samal ajal vähem koolitusele.

3. GPT (generatiivne eelkoolitatud transformer)

Pildi krediit:ilgmyzin/ Vabastage pritsmed

Kas vajate midagi, mis aitaks teil sisu luua, soovitusi anda või teksti kokku võtta? GPT on OpenAI eelkoolitatud mudel, mis toodab sidusaid ja kontekstipõhiseid tekste.

Erinevalt BERT-ist, mis on loodud kodeerijatrafo arhitektuuri alusel, on GPT loodud dekoodertrafona. See võimaldab GPT-l suurepäraselt ennustada järgmisi sõnu eelmise jada konteksti põhjal. Internetis leiduva suure hulga tekstide kohta koolitatud GPT õppis sõnade ja lausete vahelisi mustreid ja seoseid. See võimaldab GPT-l teada, milliseid sõnu on teatud stsenaariumi puhul kõige sobivam kasutada. Kuna tegemist on populaarse eelkoolitatud modelliga, on neid täiustatud tööriistad, nagu AutoGPT mida saate kasutada oma töö ja ettevõtte kasuks.

Ehkki GPT-l on suurepärane inimkeele jäljendamine, pole sellel peale mudeli koolitamiseks kasutatud andmekogumi faktidel alust. Kuna see hoolib ainult sellest, kas see genereerib sõnu, mis on eelnevate sõnade konteksti põhjal mõistlikud, võib see aeg-ajalt anda valesid, väljamõeldud või mittefaktilisi vastuseid. Teine probleem, mis teil võib olla GPT peenhäälestamisel, on see, et OpenAI võimaldab juurdepääsu ainult API kaudu. Niisiis, kas soovite GPT-d peenhäälestada või lihtsalt jätkake ChatGPT treenimist oma kohandatud andmetega , peate API võtme eest maksma.

4. T5 (tekstist tekstiks edastusmuundur)

T5 on väga mitmekülgne NLP-mudel, mis ühendab nii kodeerija kui ka dekoodri arhitektuuri, et tulla toime paljude NLP-ülesannetega. T5 saab kasutada teksti klassifitseerimiseks, kokkuvõtete tegemiseks, tõlkimiseks, küsimustele vastamiseks ja tundeanalüüsiks.

Kui T5-l on väikesed, põhi- ja suured mudelisuurused, saate kodeerija-dekooder-trafo mudeli, mis sobib paremini teie vajadustega jõudluse, täpsuse, treeningaja ja peenhäälestuse maksumuse osas. T5 mudeleid saab kõige paremini kasutada siis, kui saate oma NLP ülesannete rakenduste jaoks rakendada ainult ühte mudelit. Kui teil peab aga olema parim NLP jõudlus, võiksite kasutada kodeerimis- ja dekodeerimisülesannete jaoks eraldi mudelit.

kuidas sundida aknaid sulgema

5. ResNet (jäänärvivõrk)

Kas otsite mudelit, mis suudab täita arvutinägemisega seotud ülesandeid? ResNet on konvolutsioonilise närvivõrgu arhitektuuri (CNN) all loodud süvaõppemudel, mis on kasulik arvutinägemise ülesannete jaoks, nagu pildituvastus, objektide tuvastamine ja semantiline segmenteerimine. Kuna ResNet on populaarne eelkoolitatud mudel, saate leida peenhäälestatud mudeleid ja seejärel kasutada ülekande õpe kiiremaks mudelikoolituseks .

ResNet töötab nii, et kõigepealt mõistab sisendi ja väljundi erinevust, mida tuntakse ka kui 'jääke'. Pärast jääkide tuvastamist keskendub ResNet sellele, et välja selgitada, mis on nende sisendite ja väljundite vahel kõige tõenäolisem. Koolitades ResNeti suurel andmekogul, õppis mudel keerulisi mustreid ja funktsioone ning saab aru, millised objektid tavaliselt välja näevad, muutes ResNeti suurepäraseks pildi sisendi ja väljundi vahepealsete kohtade täitmisel.

Kuna ResNet arendab oma arusaamist ainult antud andmekogumi põhjal, võib probleemiks olla ülepaigutamine. See tähendab, et kui konkreetse subjekti andmekogum oli ebapiisav, võib ResNet subjekti valesti tuvastada. Seega, kui peaksite kasutama ResNeti mudelit, peaksite usaldusväärsuse tagamiseks mudelit viimistlema suure andmekogumiga.

6. VGGNet (visuaalse geomeetria rühmavõrk)

VGGNet on veel üks populaarne arvutinägemise mudel, mida on lihtsam mõista ja rakendada kui ResNet. Ehkki VGGNet on vähem võimas, kasutab see ResNetist lihtsamat lähenemist, kasutades ühtset arhitektuuri, mis jagab pildid väiksemateks tükkideks ja õpib seejärel järk-järgult selle funktsioone tundma.

Selle lihtsama piltide analüüsimeetodi abil on VGGNet lihtsam mõista, rakendada ja muuta isegi suhteliselt uutele süvaõppe teadlastele või praktikutele. Samuti võite soovida kasutada VGGNeti ResNeti kaudu, kui teil on piiratud andmekogum ja ressursid ning soovite mudelit täpsustada, et see oleks konkreetses piirkonnas tõhusam.

Saadaval on arvukalt teisi eelkoolitatud mudeleid

Loodetavasti on teil nüüd parem ettekujutus sellest, milliseid eelkoolitatud mudeleid saate oma projekti jaoks kasutada. Käsitletud mudelid on oma valdkonnas ühed populaarseimad. Pidage meeles, et süvaõppe teekides, nagu TensorFlow Hub ja PyTorch, on avalikult saadaval ka palju teisi eelkoolitatud mudeleid.

Samuti ei pea te jääma ainult ühe eelkoolitatud mudeli juurde. Niikaua kui teil on ressursse ja aega, saate alati rakendada mitut eelkoolitatud mudelit, mis teie rakendusele kasu toovad.