sut i greu AI ar eich cyfrifiadur

Sut i greu AI ar eich Cyfrifiadur. Canllaw Llawn.

Iawn, felly rydych chi'n chwilfrydig ynglŷn ag adeiladu "AI." Nid yn yr ystyr Hollywood lle mae'n ystyried bodolaeth, ond y math y gallwch chi ei redeg ar eich gliniadur sy'n gwneud rhagfynegiadau, yn didoli pethau, efallai hyd yn oed yn sgwrsio ychydig. Y canllaw hwn ar Sut i wneud AI ar eich Cyfrifiadur yw fy ymgais i'ch llusgo o ddim byd i rywbeth sy'n gweithio'n lleol mewn gwirionedd . Disgwyliwch lwybrau byr, barn ddi-flewyn-ar-dafod, ac ambell i gwyriad oherwydd, gadewch i ni fod yn onest, nid yw tincian byth yn lân.

Erthyglau y gallech fod eisiau eu darllen ar ôl yr un hon:

🔗 Sut i greu model AI: esboniad llawn o'r camau
Dadansoddiad clir o greu model AI o'r dechrau i'r diwedd.

🔗 Beth yw AI symbolaidd: popeth sydd angen i chi ei wybod
Dysgwch hanfodion, hanes a chymwysiadau modern AI symbolaidd.

🔗 Gofynion storio data ar gyfer AI: yr hyn sydd ei angen arnoch chi
Deall anghenion storio ar gyfer systemau AI effeithlon a graddadwy.


Pam trafferthu nawr? 🧭

Oherwydd bod oes “labordai ar raddfa Google yn unig all wneud AI” wedi mynd. Y dyddiau hyn, gyda gliniadur rheolaidd, rhai offer ffynhonnell agored, a dyfalbarhad, gallwch chi goginio modelau bach sy'n dosbarthu negeseuon e-bost, yn crynhoi testun, neu'n tagio delweddau. Nid oes angen canolfan ddata. Dim ond angen:

  • cynllun,

  • gosodiad glân,

  • a gôl y gallwch chi ei gorffen heb fod eisiau taflu'r peiriant allan o'r ffenestr.


Beth sy'n gwneud hyn yn werth ei ddilyn ✅

Fel arfer, dydy pobl sy'n gofyn “Sut i wneud AI ar eich Cyfrifiadur” ddim eisiau PhD. Maen nhw eisiau rhywbeth y gallan nhw ei redeg mewn gwirionedd. Mae cynllun da yn taro ychydig o bethau:

  • Dechreuwch yn fach : dosbarthwch deimlad, nid “datrys deallusrwydd”.

  • Atgynhyrchadwyedd : conda neu venv fel y gallwch ailadeiladu yfory heb banig.

  • Gonestrwydd caledwedd : CPUs yn iawn ar gyfer scikit-learn, GPUs ar gyfer rhwydweithiau dwfn (os ydych chi'n lwcus) [2][3].

  • Data glân : dim sothach wedi'i gamlabelu; bob amser wedi'i rannu'n hyfforddi/dilys/prawf.

  • Metrigau sy'n golygu rhywbeth : cywirdeb, manylder, atgof, F1. Ar gyfer anghydbwysedd, ROC-AUC/PR-AUC [1].

  • Ffordd i rannu : API, CLI, neu ap demo bach.

  • Diogelwch : dim setiau data amheus, dim gollyngiadau gwybodaeth breifat, nodwch y risgiau'n glir [4].

Cael y rheini'n iawn, a hyd yn oed eich model "bach" yn real.


Map ffordd nad yw'n edrych yn frawychus 🗺️

  1. Dewiswch broblem fach + un metrig.

  2. Gosodwch Python ac ychydig o lyfrgelloedd allweddol.

  3. Creu amgylchedd glân (byddwch chi'n diolch i chi'ch hun yn ddiweddarach).

  4. Llwythwch eich set ddata, rhannwch yn iawn.

  5. Hyfforddwch waelodlin dwp ond gonest.

  6. Rhowch gynnig ar rwyd niwral dim ond os yw'n ychwanegu gwerth.

  7. Pecynnu demo.

  8. Cadwch ychydig o nodiadau, yn y dyfodol - byddwch chi'n diolch i chi.


Pecyn gofynnol: peidiwch â gor-gymhlethu 🧰

  • Python : cipio o python.org.

  • Amgylchedd : Conda neu venv gyda phip.

  • Llyfrau nodiadau : Jupyter ar gyfer chwarae.

  • Golygydd : VS Code, cyfeillgar a phwerus.

  • Llyfrgelloedd craidd

    • pandas + NumPy (ymdrechu data)

    • scikit-learn (ML clasurol)

    • PyTorch neu TensorFlow (dysgu dwfn, mae adeiladu GPU yn bwysig) [2][3]

    • Trawsnewidyddion Wyneb Cofleidio, spaCy, OpenCV (NLP + gweledigaeth)

  • Cyflymiad (dewisol)

    • NVIDIA → adeiladau CUDA [2]

    • Adeiladwaith AMD → ROCm [2]

    • Apple → PyTorch gyda backend Metal (MPS) [2]

⚡ Nodyn ochr: mae'r rhan fwyaf o'r "boen gosod" yn diflannu os ydych chi'n gadael i'r gosodwyr swyddogol roi'r union orchymyn i chi ar gyfer eich gosodiad. Copïo, gludo, wedi gwneud [2][3].

Rheol gyffredinol: cropian ar y CPU yn gyntaf, sbrintiwch gyda'r GPU yn ddiweddarach.


Dewis eich pentwr: gwrthsefyll pethau sgleiniog 🧪

  • Data tablaidd → scikit-learn. Atchweliad logistaidd, coedwigoedd ar hap, hybu graddiant.

  • Testun neu ddelweddau → PyTorch neu TensorFlow. Ar gyfer testun, mae mireinio Trawsnewidydd bach yn fuddugoliaeth enfawr.

  • Mae llama.cpp , tebyg i sgwrsbot, yn gallu rhedeg LLMs bach ar liniaduron. Peidiwch â disgwyl hud, ond mae'n gweithio ar gyfer nodiadau a chrynodebau [5].


Gosod amgylchedd glân 🧼

# Conda way conda create -n localai python=3.11 conda activate localai # OR venv python -m venv .venv source .venv/bin/activate # Windows: .venv\Scripts\activate

Yna gosodwch yr hanfodion:

pip gosod numpy pandas scikit-learn jupyter pip gosod torch torchvision torchaudio # neu tensorflow pip gosod setiau data trawsnewidyddion

(Ar gyfer adeiladwaith GPU, o ddifrif, defnyddiwch y dewiswr swyddogol [2][3].)


Model gweithio cyntaf: cadwch ef yn fach 🏁

Gwaelodlin yn gyntaf. CSV → nodweddion + labeli → atchweliad logistaidd.

o sklearn.linear_model mewnforio AtchweliadLogistaidd ... argraffu("Cywirdeb:", sgôr_accuracy(prawf_y, rhagolygon)) argraffu(adroddiad_dosbarthiad(prawf_y, rhagolygon))

Os yw hyn yn perfformio'n well na hap, rydych chi'n dathlu. Coffi neu gwci, eich penderfyniad chi ☕.
Ar gyfer dosbarthiadau anghytbwys, gwyliwch gromliniau manwl gywirdeb/adalw + ROC/PR yn lle cywirdeb crai [1].


Rhwydweithiau niwral (dim ond os ydyn nhw'n helpu) 🧠

Oes gennych chi destun ac eisiau dosbarthu teimladau? Addaswch drawsnewidydd bach wedi'i hyfforddi ymlaen llaw. Cyflym, taclus, nid yw'n llosgi'ch peiriant.

o drawsnewidyddion mewnforio AutoModelForSequenceClassification ... trainer.train() print(trainer.evaluate())

Awgrym proffesiynol: dechreuwch gyda samplau bach iawn. Mae dadfygio ar 1% o ddata yn arbed oriau.


Data: pethau sylfaenol na allwch eu hepgor 📦

  • Setiau data cyhoeddus: Kaggle, Hugging Face, ystorfeydd academaidd (gwiriwch drwyddedau).

  • Moeseg: clirio gwybodaeth bersonol, parchu hawliau.

  • Holltiadau: hyfforddi, dilysu, profi. Peidiwch byth â chipolwg.

  • Labeli: mae cysondeb yn bwysicach na modelau ffansi.

Bom gwirionedd: mae 60% o'r canlyniadau o labeli glân, nid hud pensaernïaeth.


Metrigau sy'n eich cadw'n onest 🎯

  • Dosbarthiad → cywirdeb, manylder, cofio, F1.

  • Setiau anghytbwys → mae ROC-AUC, PR-AUC yn bwysicach.

  • Atchweliad → MAE, RMSE, R².

  • Gwiriad realiti → pelen lygad ychydig o allbynnau; gall niferoedd ddweud celwydd.

Cyfeirnod defnyddiol: canllaw metrigau scikit-learn [1].


Awgrymiadau cyflymu 🚀

  • NVIDIA → Adeiladwaith CUDA PyTorch [2]

  • AMD → ROCm [2]

  • Apple → cefndir MPS [2]

  • TensorFlow → dilynwch y gosodiad GPU swyddogol + gwirio [3]

Ond peidiwch ag optimeiddio cyn i'ch llinell sylfaen hyd yn oed redeg. Mae hynny fel sgleinio olwynion cyn i'r car gael olwynion.


Modelau cynhyrchiol lleol: dreigiau bach 🐉

  • Iaith → LLMs wedi'u meintioli drwy llama.cpp [5]. Da ar gyfer nodiadau neu awgrymiadau cod, nid sgwrs ddofn.

  • Delweddau → Mae amrywiadau Diffusion Sefydlog yn bodoli; darllenwch y trwyddedau'n ofalus.

Weithiau mae Transformer wedi'i diwnio'n fanwl ar gyfer tasgau penodol yn curo LLM chwyddedig ar galedwedd bach.


Demos pecynnu: gadewch i bobl glicio 🖥️

  • Gradio → y rhyngwyneb defnyddiwr hawsaf.

  • FastAPI → API glân.

  • Fflasg → sgriptiau cyflym.

mewnforio gradio fel gr clf = pipeline("dadansoddiad-teimlad") ... demo.launch()

Yn teimlo fel hud pan fydd eich porwr yn ei ddangos.


Arferion sy'n achub synnwyr cyffredin 🧠

  • Git ar gyfer rheoli fersiynau.

  • MLflow neu lyfrau nodiadau ar gyfer olrhain arbrofion.

  • Fersiwnio data gyda DVC neu hashes.

  • Docker os oes angen i eraill redeg eich pethau.

  • Dibyniaethau pin ( requirements.txt ).

Credwch fi, yn y dyfodol - byddwch chi'n ddiolchgar.


Datrys Problemau: eiliadau “ugh” cyffredin 🧯

  • Gwallau gosod? Sychwch yr amgylchedd ac ailadeiladu.

  • GPU heb ei ganfod? Gyrrwr yn anghyson, gwiriwch y fersiynau [2][3].

  • Model ddim yn dysgu? Cyfradd ddysgu is, symleiddio, neu lanhau labeli.

  • Gor-ffitio? Rheoleiddio, gollwng allan, neu ddim ond mwy o ddata.

  • Metrigau rhy dda? Fe wnaethoch chi ollwng y set brawf (mae'n digwydd yn amlach nag y byddech chi'n meddwl).


Diogelwch + cyfrifoldeb 🛡️

  • Tynnu PII.

  • Parchwch drwyddedau.

  • Lleol-yn gyntaf = preifatrwydd + rheolaeth, ond gyda therfynau cyfrifiadurol.

  • Dogfennu risgiau (tegwch, diogelwch, gwydnwch, ac ati) [4].


Tabl cymharu defnyddiol 📊

Offeryn Gorau Ar Gyfer Pam ei ddefnyddio
scikit-dysgu Data tablaidd Enillion cyflym, API glân 🙂
PyTorch Rhwydi dwfn personol Cymuned hyblyg, enfawr
TensorFlow Piblinellau cynhyrchu Ecosystem + opsiynau gweini
Trawsnewidyddion Tasgau testun Mae modelau wedi'u hyfforddi ymlaen llaw yn arbed cyfrifiadura
spaCy Piblinellau NLP Cryfder diwydiannol, pragmatig
Gradio Demos/UIs 1 ffeil → UI
FastAPI APIs Cyflymder + dogfennau awtomatig
Amser Rhedeg ONNX Defnydd traws-fframwaith Cludadwy + effeithlon
llama.cpp LLMs lleol bach Cwanteiddio sy'n gyfeillgar i'r CPU [5]
Docker Rhannu amgylliadau “Mae’n gweithio ym mhobman”

Tri phlymiad dyfnach (byddwch chi'n eu defnyddio mewn gwirionedd) 🏊

  1. Peirianneg nodweddion ar gyfer tablau → normaleiddio, un-boeth, rhoi cynnig ar fodelau coeden, croes-ddilysu [1].

  2. Trosglwyddo dysgu ar gyfer testun → mireinio Trawsnewidyddion bach, cadw hyd y dilyniant yn gymedrol, F1 ar gyfer dosbarthiadau prin [1].

  3. Optimeiddio ar gyfer casgliad lleol → meintioli, allforio ONNX, tocynnau storfa.


Peryglon clasurol 🪤

  • Adeiladu'n rhy fawr, yn rhy gynnar.

  • Anwybyddu ansawdd data.

  • Hepgor rhaniad prawf.

  • Codio copïo-gludo dall.

  • Heb ddogfennu dim byd.

Mae hyd yn oed README yn arbed oriau'n ddiweddarach.


Adnoddau dysgu sy'n werth yr amser 📚

  • Dogfennau swyddogol (PyTorch, TensorFlow, scikit-learn, Transformers).

  • Cwrs Drisg ML Google, DeepLearning.AI.

  • Dogfennau OpenCV ar gyfer hanfodion gweledigaeth.

  • Canllaw defnyddio spaCy ar gyfer piblinellau NLP.

Hac bywyd bach: mae'r gosodwyr swyddogol sy'n cynhyrchu eich gorchymyn gosod GPU yn achubwyr bywyd [2][3].


Yn tynnu'r cyfan at ei gilydd 🧩

  1. Nod → dosbarthu tocynnau cymorth yn 3 math.

  2. Data → allforio CSV, dienw, rhannu.

  3. Llinell sylfaen → scikit-learn TF-IDF + atchweliad logistaidd.

  4. Uwchraddio → Mireinio'r trawsnewidydd os bydd y llinell sylfaen yn stopio.

  5. Demo → Ap blwch testun Gradio.

  6. Llong → Docker + README.

  7. Ailadrodd → cywiro gwallau, ail-labelu, ailadrodd.

  8. Diogelu → risgiau dogfennu [4].

Mae'n ddiflas o effeithiol.


TL;DR 🎂

Dysgu Sut i greu AI ar eich Cyfrifiadur = dewiswch un broblem fach, adeiladwch linell sylfaen, dim ond cynyddu pan fydd o gymorth, a chadwch eich gosodiad yn atgynhyrchadwy. Gwnewch hynny ddwywaith a byddwch chi'n teimlo'n gymwys. Gwnewch hynny bum gwaith a bydd pobl yn dechrau gofyn i chi am help, sef y rhan hwyl yn gyfrinachol.

Ac ie, weithiau mae'n teimlo fel dysgu tostiwr i ysgrifennu barddoniaeth. Mae hynny'n iawn. Daliwch ati i chwarae. 🔌📝


Cyfeiriadau

[1] scikit-learn — Metrigau a gwerthuso modelau: dolen
[2] PyTorch — Dewisydd gosod lleol (CUDA/ROCm/Mac MPS): dolen
[3] TensorFlow — Gosod + dilysu GPU: dolen
[4] NIST — Fframwaith Rheoli Risg AI: dolen
[5] llama.cpp — Storfa LLM leol: dolen


Dewch o hyd i'r AI Diweddaraf yn y Siop Swyddogol ar gyfer Cynorthwywyr AI

Amdanom Ni

Yn ôl i'r blog