Sut i greu AI ar eich Cyfrifiadur. Canllaw Llawn.

Iawn, felly rydych chi'n chwilfrydig ynglŷn ag adeiladu "AI." Nid yn yr ystyr Hollywood lle mae'n ystyried bodolaeth, ond y math y gallwch chi ei redeg ar eich gliniadur sy'n gwneud rhagfynegiadau, yn didoli pethau, efallai hyd yn oed yn sgwrsio ychydig. Y canllaw hwn ar Sut i wneud AI ar eich Cyfrifiadur yw fy ymgais i'ch llusgo o ddim byd i rywbeth sy'n gweithio'n lleol mewn gwirionedd . Disgwyliwch lwybrau byr, barn ddi-flewyn-ar-dafod, ac ambell i gwyriad oherwydd, gadewch i ni fod yn onest, nid yw tincian byth yn lân.

Erthyglau y gallech fod eisiau eu darllen ar ôl yr un hon:

🔗 Sut i greu model AI: esboniad llawn o'r camau
Dadansoddiad clir o greu model AI o'r dechrau i'r diwedd.

🔗 Beth yw AI symbolaidd: popeth sydd angen i chi ei wybod
Dysgwch hanfodion, hanes a chymwysiadau modern AI symbolaidd.

🔗 Gofynion storio data ar gyfer AI: yr hyn sydd ei angen arnoch chi
Deall anghenion storio ar gyfer systemau AI effeithlon a graddadwy.

Pam trafferthu nawr? 🧭

Oherwydd bod oes “labordai ar raddfa Google yn unig all wneud AI” wedi mynd. Y dyddiau hyn, gyda gliniadur rheolaidd, rhai offer ffynhonnell agored, a dyfalbarhad, gallwch chi goginio modelau bach sy'n dosbarthu negeseuon e-bost, yn crynhoi testun, neu'n tagio delweddau. Nid oes angen canolfan ddata. Dim ond angen:

cynllun,
gosodiad glân,
a gôl y gallwch chi ei gorffen heb fod eisiau taflu'r peiriant allan o'r ffenestr.

Beth sy'n gwneud hyn yn werth ei ddilyn ✅

Fel arfer, dydy pobl sy'n gofyn “Sut i wneud AI ar eich Cyfrifiadur” ddim eisiau PhD. Maen nhw eisiau rhywbeth y gallan nhw ei redeg mewn gwirionedd. Mae cynllun da yn taro ychydig o bethau:

Dechreuwch yn fach : dosbarthwch deimlad, nid “datrys deallusrwydd”.
Atgynhyrchadwyedd : conda neu venv fel y gallwch ailadeiladu yfory heb banig.
Gonestrwydd caledwedd : CPUs yn iawn ar gyfer scikit-learn, GPUs ar gyfer rhwydweithiau dwfn (os ydych chi'n lwcus) [2][3].
Data glân : dim sothach wedi'i gamlabelu; bob amser wedi'i rannu'n hyfforddi/dilys/prawf.
Metrigau sy'n golygu rhywbeth : cywirdeb, manylder, atgof, F1. Ar gyfer anghydbwysedd, ROC-AUC/PR-AUC [1].
Ffordd i rannu : API, CLI, neu ap demo bach.
Diogelwch : dim setiau data amheus, dim gollyngiadau gwybodaeth breifat, nodwch y risgiau'n glir [4].

Cael y rheini'n iawn, a hyd yn oed eich model "bach" yn real.

Map ffordd nad yw'n edrych yn frawychus 🗺️

Dewiswch broblem fach + un metrig.
Gosodwch Python ac ychydig o lyfrgelloedd allweddol.
Creu amgylchedd glân (byddwch chi'n diolch i chi'ch hun yn ddiweddarach).
Llwythwch eich set ddata, rhannwch yn iawn.
Hyfforddwch waelodlin dwp ond gonest.
Rhowch gynnig ar rwyd niwral dim ond os yw'n ychwanegu gwerth.
Pecynnu demo.
Cadwch ychydig o nodiadau, yn y dyfodol - byddwch chi'n diolch i chi.

Pecyn gofynnol: peidiwch â gor-gymhlethu 🧰

Python : cipio o python.org.
Amgylchedd : Conda neu venv gyda phip.
Llyfrau nodiadau : Jupyter ar gyfer chwarae.
Golygydd : VS Code, cyfeillgar a phwerus.
Llyfrgelloedd craidd
- pandas + NumPy (ymdrechu data)
- scikit-learn (ML clasurol)
- PyTorch neu TensorFlow (dysgu dwfn, mae adeiladu GPU yn bwysig) [2][3]
- Trawsnewidyddion Wyneb Cofleidio, spaCy, OpenCV (NLP + gweledigaeth)
Cyflymiad (dewisol)
- NVIDIA → adeiladau CUDA [2]
- Adeiladwaith AMD → ROCm [2]
- Apple → PyTorch gyda backend Metal (MPS) [2]

⚡ Nodyn ochr: mae'r rhan fwyaf o'r "boen gosod" yn diflannu os ydych chi'n gadael i'r gosodwyr swyddogol roi'r union orchymyn i chi ar gyfer eich gosodiad. Copïo, gludo, wedi gwneud [2][3].

Rheol gyffredinol: cropian ar y CPU yn gyntaf, sbrintiwch gyda'r GPU yn ddiweddarach.

Dewis eich pentwr: gwrthsefyll pethau sgleiniog 🧪

Data tablaidd → scikit-learn. Atchweliad logistaidd, coedwigoedd ar hap, hybu graddiant.
Testun neu ddelweddau → PyTorch neu TensorFlow. Ar gyfer testun, mae mireinio Trawsnewidydd bach yn fuddugoliaeth enfawr.
Mae llama.cpp , tebyg i sgwrsbot, yn gallu rhedeg LLMs bach ar liniaduron. Peidiwch â disgwyl hud, ond mae'n gweithio ar gyfer nodiadau a chrynodebau [5].

Gosod amgylchedd glân 🧼

# Conda way conda create -n localai python=3.11 conda activate localai # OR venv python -m venv .venv source .venv/bin/activate # Windows: .venv\Scripts\activate

Yna gosodwch yr hanfodion:

pip gosod numpy pandas scikit-learn jupyter pip gosod torch torchvision torchaudio # neu tensorflow pip gosod setiau data trawsnewidyddion

(Ar gyfer adeiladwaith GPU, o ddifrif, defnyddiwch y dewiswr swyddogol [2][3].)

Model gweithio cyntaf: cadwch ef yn fach 🏁

Gwaelodlin yn gyntaf. CSV → nodweddion + labeli → atchweliad logistaidd.

o sklearn.linear_model mewnforio AtchweliadLogistaidd ... argraffu("Cywirdeb:", sgôr_accuracy(prawf_y, rhagolygon)) argraffu(adroddiad_dosbarthiad(prawf_y, rhagolygon))

Os yw hyn yn perfformio'n well na hap, rydych chi'n dathlu. Coffi neu gwci, eich penderfyniad chi ☕.
Ar gyfer dosbarthiadau anghytbwys, gwyliwch gromliniau manwl gywirdeb/adalw + ROC/PR yn lle cywirdeb crai [1].

Rhwydweithiau niwral (dim ond os ydyn nhw'n helpu) 🧠

Oes gennych chi destun ac eisiau dosbarthu teimladau? Addaswch drawsnewidydd bach wedi'i hyfforddi ymlaen llaw. Cyflym, taclus, nid yw'n llosgi'ch peiriant.

o drawsnewidyddion mewnforio AutoModelForSequenceClassification ... trainer.train() print(trainer.evaluate())

Awgrym proffesiynol: dechreuwch gyda samplau bach iawn. Mae dadfygio ar 1% o ddata yn arbed oriau.

Data: pethau sylfaenol na allwch eu hepgor 📦

Setiau data cyhoeddus: Kaggle, Hugging Face, ystorfeydd academaidd (gwiriwch drwyddedau).
Moeseg: clirio gwybodaeth bersonol, parchu hawliau.
Holltiadau: hyfforddi, dilysu, profi. Peidiwch byth â chipolwg.
Labeli: mae cysondeb yn bwysicach na modelau ffansi.

Bom gwirionedd: mae 60% o'r canlyniadau o labeli glân, nid hud pensaernïaeth.

Metrigau sy'n eich cadw'n onest 🎯

Dosbarthiad → cywirdeb, manylder, cofio, F1.
Setiau anghytbwys → mae ROC-AUC, PR-AUC yn bwysicach.
Atchweliad → MAE, RMSE, R².
Gwiriad realiti → pelen lygad ychydig o allbynnau; gall niferoedd ddweud celwydd.

Cyfeirnod defnyddiol: canllaw metrigau scikit-learn [1].

Awgrymiadau cyflymu 🚀

NVIDIA → Adeiladwaith CUDA PyTorch [2]
AMD → ROCm [2]
Apple → cefndir MPS [2]
TensorFlow → dilynwch y gosodiad GPU swyddogol + gwirio [3]

Ond peidiwch ag optimeiddio cyn i'ch llinell sylfaen hyd yn oed redeg. Mae hynny fel sgleinio olwynion cyn i'r car gael olwynion.

Modelau cynhyrchiol lleol: dreigiau bach 🐉

Iaith → LLMs wedi'u meintioli drwy llama.cpp [5]. Da ar gyfer nodiadau neu awgrymiadau cod, nid sgwrs ddofn.
Delweddau → Mae amrywiadau Diffusion Sefydlog yn bodoli; darllenwch y trwyddedau'n ofalus.

Weithiau mae Transformer wedi'i diwnio'n fanwl ar gyfer tasgau penodol yn curo LLM chwyddedig ar galedwedd bach.

Demos pecynnu: gadewch i bobl glicio 🖥️

Gradio → y rhyngwyneb defnyddiwr hawsaf.
FastAPI → API glân.
Fflasg → sgriptiau cyflym.

mewnforio gradio fel gr clf = pipeline("dadansoddiad-teimlad") ... demo.launch()

Yn teimlo fel hud pan fydd eich porwr yn ei ddangos.

Arferion sy'n achub synnwyr cyffredin 🧠

Git ar gyfer rheoli fersiynau.
MLflow neu lyfrau nodiadau ar gyfer olrhain arbrofion.
Fersiwnio data gyda DVC neu hashes.
Docker os oes angen i eraill redeg eich pethau.
Dibyniaethau pin ( requirements.txt ).

Credwch fi, yn y dyfodol - byddwch chi'n ddiolchgar.

Datrys Problemau: eiliadau “ugh” cyffredin 🧯

Gwallau gosod? Sychwch yr amgylchedd ac ailadeiladu.
GPU heb ei ganfod? Gyrrwr yn anghyson, gwiriwch y fersiynau [2][3].
Model ddim yn dysgu? Cyfradd ddysgu is, symleiddio, neu lanhau labeli.
Gor-ffitio? Rheoleiddio, gollwng allan, neu ddim ond mwy o ddata.
Metrigau rhy dda? Fe wnaethoch chi ollwng y set brawf (mae'n digwydd yn amlach nag y byddech chi'n meddwl).

Diogelwch + cyfrifoldeb 🛡️

Tynnu PII.
Parchwch drwyddedau.
Lleol-yn gyntaf = preifatrwydd + rheolaeth, ond gyda therfynau cyfrifiadurol.
Dogfennu risgiau (tegwch, diogelwch, gwydnwch, ac ati) [4].

Tabl cymharu defnyddiol 📊

Offeryn	Gorau Ar Gyfer	Pam ei ddefnyddio
scikit-dysgu	Data tablaidd	Enillion cyflym, API glân 🙂
PyTorch	Rhwydi dwfn personol	Cymuned hyblyg, enfawr
TensorFlow	Piblinellau cynhyrchu	Ecosystem + opsiynau gweini
Trawsnewidyddion	Tasgau testun	Mae modelau wedi'u hyfforddi ymlaen llaw yn arbed cyfrifiadura
spaCy	Piblinellau NLP	Cryfder diwydiannol, pragmatig
Gradio	Demos/UIs	1 ffeil → UI
FastAPI	APIs	Cyflymder + dogfennau awtomatig
Amser Rhedeg ONNX	Defnydd traws-fframwaith	Cludadwy + effeithlon
llama.cpp	LLMs lleol bach	Cwanteiddio sy'n gyfeillgar i'r CPU [5]
Docker	Rhannu amgylliadau	“Mae’n gweithio ym mhobman”

Tri phlymiad dyfnach (byddwch chi'n eu defnyddio mewn gwirionedd) 🏊

Peirianneg nodweddion ar gyfer tablau → normaleiddio, un-boeth, rhoi cynnig ar fodelau coeden, croes-ddilysu [1].
Trosglwyddo dysgu ar gyfer testun → mireinio Trawsnewidyddion bach, cadw hyd y dilyniant yn gymedrol, F1 ar gyfer dosbarthiadau prin [1].
Optimeiddio ar gyfer casgliad lleol → meintioli, allforio ONNX, tocynnau storfa.

Peryglon clasurol 🪤

Adeiladu'n rhy fawr, yn rhy gynnar.
Anwybyddu ansawdd data.
Hepgor rhaniad prawf.
Codio copïo-gludo dall.
Heb ddogfennu dim byd.

Mae hyd yn oed README yn arbed oriau'n ddiweddarach.

Adnoddau dysgu sy'n werth yr amser 📚

Dogfennau swyddogol (PyTorch, TensorFlow, scikit-learn, Transformers).
Cwrs Drisg ML Google, DeepLearning.AI.
Dogfennau OpenCV ar gyfer hanfodion gweledigaeth.
Canllaw defnyddio spaCy ar gyfer piblinellau NLP.

Hac bywyd bach: mae'r gosodwyr swyddogol sy'n cynhyrchu eich gorchymyn gosod GPU yn achubwyr bywyd [2][3].

Yn tynnu'r cyfan at ei gilydd 🧩

Nod → dosbarthu tocynnau cymorth yn 3 math.
Data → allforio CSV, dienw, rhannu.
Llinell sylfaen → scikit-learn TF-IDF + atchweliad logistaidd.
Uwchraddio → Mireinio'r trawsnewidydd os bydd y llinell sylfaen yn stopio.
Demo → Ap blwch testun Gradio.
Llong → Docker + README.
Ailadrodd → cywiro gwallau, ail-labelu, ailadrodd.
Diogelu → risgiau dogfennu [4].

Mae'n ddiflas o effeithiol.

TL;DR 🎂

Dysgu Sut i greu AI ar eich Cyfrifiadur = dewiswch un broblem fach, adeiladwch linell sylfaen, dim ond cynyddu pan fydd o gymorth, a chadwch eich gosodiad yn atgynhyrchadwy. Gwnewch hynny ddwywaith a byddwch chi'n teimlo'n gymwys. Gwnewch hynny bum gwaith a bydd pobl yn dechrau gofyn i chi am help, sef y rhan hwyl yn gyfrinachol.

Ac ie, weithiau mae'n teimlo fel dysgu tostiwr i ysgrifennu barddoniaeth. Mae hynny'n iawn. Daliwch ati i chwarae. 🔌📝

Cyfeiriadau

[1] scikit-learn — Metrigau a gwerthuso modelau: dolen
[2] PyTorch — Dewisydd gosod lleol (CUDA/ROCm/Mac MPS): dolen
[3] TensorFlow — Gosod + dilysu GPU: dolen
[4] NIST — Fframwaith Rheoli Risg AI: dolen
[5] llama.cpp — Storfa LLM leol: dolen

Dewch o hyd i'r AI Diweddaraf yn y Siop Swyddogol ar gyfer Cynorthwywyr AI

Amdanom Ni

Yn ôl i'r blog

Gwlad/rhanbarth