Kuidas Llama 2 kohapeal alla laadida ja installida

Teiesugused lugejad aitavad MUO-d toetada. Kui teete ostu meie saidil olevate linkide abil, võime teenida sidusettevõtte komisjonitasu. Loe rohkem.

Meta andis Llama 2 välja 2023. aasta suvel. Llama uus versioon on peenhäälestatud 40% rohkemate märkidega kui algne Llama mudel, mis kahekordistab selle kontekstipikkust ja ületab oluliselt teisi saadaolevaid avatud lähtekoodiga mudeleid. Kiireim ja lihtsaim viis Llama 2-le juurde pääseda on API kaudu veebiplatvormi kaudu. Kui soovite aga parimat kogemust, on parim Llama 2 installimine ja laadimine otse arvutisse.

Seda silmas pidades oleme koostanud samm-sammult juhendi selle kohta, kuidas kasutada Text-Generation-WebUI-d kvantiseeritud Llama 2 LLM-i kohalikuks arvutisse laadimiseks.

Miks installida Llama 2 kohapeal

Põhjuseid, miks inimesed otsustavad Llama 2 otse juhtida, on palju. Mõned teevad seda privaatsusprobleemide tõttu, mõned kohandamiseks ja teised võrguühenduseta võimaluste jaoks. Kui uurite, viimistlete või integreerite Llama 2 oma projektide jaoks, ei pruugi Llama 2 juurdepääs API kaudu olla teie jaoks. LLM-i arvutis lokaalse käitamise mõte on vähendada sõltuvust sellest kolmanda osapoole AI tööriistad ja kasutage tehisintellekti igal ajal ja igal pool, muretsemata potentsiaalselt tundlike andmete ettevõtetele ja teistele organisatsioonidele lekitamise pärast.

Seda öeldes alustame Llama 2 kohaliku installimise samm-sammulise juhendiga.

1. toiming: installige Visual Studio 2019 ehitustööriist

Asjade lihtsustamiseks kasutame Text-Generation-WebUI jaoks ühe klõpsuga installerit (programm, mida kasutatakse Llama 2 laadimiseks koos GUI-ga). Selle installija töötamiseks peate aga alla laadima Visual Studio 2019 ehitustööriista ja installima vajalikud ressursid.

Lae alla: Visual Studio 2019 (tasuta)

Jätkake ja laadige alla tarkvara kogukonna väljaanne.
Nüüd installige Visual Studio 2019 ja seejärel avage tarkvara. Pärast avamist märkige ruut sisse Töölauaarendus C++ abil ja vajuta install.

Nüüd, kui teil on installitud C++-ga töölauaarendus, on aeg alla laadida ühe klõpsuga installiprogramm Text-Generation-WebUI.

2. samm: installige teksti genereerimine-WebUI

Text-Generation-WebUI ühe klõpsuga installer on skript, mis loob automaatselt vajalikud kaustad ja seadistab Conda keskkonna ning kõik vajalikud nõuded AI mudeli käitamiseks.

Skripti installimiseks laadige alla ühe klõpsuga installiprogramm, klõpsates Kood > Laadige alla ZIP.

Lae alla: Teksti genereerimise-WebUI installija (tasuta)

Pärast allalaadimist ekstraheerige ZIP-fail oma eelistatud asukohta ja seejärel avage ekstraktitud kaust.
Kerige kaustas alla ja otsige oma operatsioonisüsteemi jaoks sobivat käivitusprogrammi. Käivitage programmid, topeltklõpsates vastaval skriptil.
- Kui kasutate Windowsi, valige start_windows partiifail
- MacOS-i jaoks valige start_macos kest karp
- Linuxi jaoks, start_linux kesta skript.
Teie viirusetõrje võib luua hoiatuse; see sobib. Viip on lihtsalt an viirusetõrje valepositiivne pakkfaili või skripti käitamiseks. Kliki Jookse niikuinii .
Avaneb terminal ja alustab häälestamist. Alguses seadistus peatub ja küsib, millist GPU-d kasutate. Valige oma arvutisse installitud sobivat tüüpi GPU ja vajutage sisestusklahvi. Neile, kellel pole spetsiaalset graafikakaarti, valige Puudub (ma tahan mudeleid CPU režiimis käitada) . Pidage meeles, et CPU režiimis töötamine on palju aeglasem võrreldes mudeli käitamisega spetsiaalse GPU-ga.
Kui seadistamine on lõpetatud, saate nüüd käivitada teksti genereerimise veebiliidese kohapeal. Seda saate teha, avades oma eelistatud veebibrauseri ja sisestades URL-ile antud IP-aadressi.
WebUI on nüüd kasutamiseks valmis.

Programm on aga ainult mudelilaadur. Laadime mudelilaaduri käivitamiseks alla Llama 2.

3. samm: laadige alla Llama 2 mudel

Kui otsustate, millist Llama 2 iteratsiooni vajate, tuleb arvestada üsna paljude asjadega. Nende hulka kuuluvad parameetrid, kvantimine, riistvara optimeerimine, suurus ja kasutus. Kogu see teave on märgitud mudeli nimes.

Parameetrid: Mudeli koolitamiseks kasutatud parameetrite arv. Suuremad parameetrid muudavad mudelid võimekamaks, kuid jõudluse hinnaga.
Kasutamine: Võib olla standardne või vestlus. Vestlusmudel on optimeeritud kasutamiseks vestlusrobotina nagu ChatGPT, samas kui standard on vaikemudel.
Riistvara optimeerimine: Viitab sellele, milline riistvara mudelit kõige paremini töötab. GPTQ tähendab, et mudel on optimeeritud töötama spetsiaalses GPU-s, samas kui GGML on optimeeritud töötama CPU-s.
Kvantimine: Tähistab kaalude ja aktiveerimiste täpsust mudelis. Järelduste tegemiseks on optimaalne täpsus q4.
Suurus: Viitab konkreetse mudeli suurusele.

Pange tähele, et mõned mudelid võivad olla paigutatud erinevalt ja neil ei pruugi isegi kuvada sama tüüpi teavet. Seda tüüpi nimetamisviisid on aga riigis üsna levinud Kallistav Nägu Mudeliteek, seega tasub ikka aru saada.

Selles näites saab mudelit tuvastada kui keskmise suurusega Llama 2 mudelit, mis on treenitud 13 miljardi parameetriga, mis on optimeeritud spetsiaalse CPU abil vestluse järelduste tegemiseks.

Neile, kes töötavad spetsiaalse GPU-ga, valige a GPTQ mudel, samas kui need, kes kasutavad CPU-d, valige GGML . Kui soovite mudeliga vestelda nagu ChatGPT-ga, valige vestlus , kuid kui soovite katsetada mudelit selle kõigi võimalustega, kasutage standard mudel. Parameetrite osas teadke, et suuremate mudelite kasutamine annab jõudluse arvelt paremaid tulemusi. Mina isiklikult soovitaksin teil alustada 7B mudeliga. Kvantimise osas kasutage q4, kuna see on ainult järelduste tegemiseks.

Lae alla: GGML (tasuta)

Lae alla: GPTQ (tasuta)

Nüüd, kui teate, millist Llama 2 iteratsiooni vajate, laadige alla soovitud mudel.

Kuna ma kasutan seda ultrabookis, kasutan ma vestluse jaoks peenhäälestatud GGML-mudelit, call-2-7b-chat-ggmlv3.q4_K_S.bin.

Kui allalaadimine on lõppenud, asetage mudel sisse text-generation-webui-main > mudelid .

Nüüd, kui olete oma mudeli alla laadinud ja mudelikausta paigutanud, on aeg mudelilaadur konfigureerida.

4. toiming: konfigureerige teksti genereerimine-WebUI

Nüüd alustame konfiguratsioonifaasiga.

faili tihendamine toimib

Avage veel kord Text-Generation-WebUI, käivitades käsu start_(teie OS) faili (vt eelmisi samme).
Klõpsake GUI kohal asuvatel vahekaartidel Mudel. Klõpsake mudeli rippmenüüs nuppu Värskenda ja valige oma mudel.
Nüüd klõpsake rippmenüül Mudellaadur ja valige AutoGPTQ neile, kes kasutavad GTPQ mudelit ja ctrafod neile, kes kasutavad GGML-mudelit. Lõpuks klõpsake nuppu Laadige mudeli laadimiseks.
Mudeli kasutamiseks avage vahekaart Vestlus ja alustage mudeli testimist.

Õnnitleme, olete Llama2 edukalt oma kohalikku arvutisse laadinud!

Proovige teisi LLM-e

Nüüd, kui teate, kuidas käivitada Llama 2 otse arvutis, kasutades Text-Generation-WebUI-d, peaksite saama peale Llama käitada ka teisi LLM-e. Pidage meeles mudelite nimetamise tavasid ja seda, et tavalistesse arvutitesse saab laadida ainult mudelite kvantifitseeritud versioone (tavaliselt q4 täpsusega). HuggingFace'is on saadaval palju kvantiseeritud LLM-e. Kui soovite uurida teisi mudeleid, otsige HuggingFace'i mudeliteegist TheBloke ja peaksite leidma palju saadaolevaid mudeleid.