Sut mae AI yn Canfod Anomaleddau?

Sut mae AI yn Canfod Anomaleddau?

Canfod anomaleddau yw arwr tawel gweithrediadau data - y larwm mwg sy'n sibrwd cyn i bethau fynd ar dân.

Yn syml: mae AI yn dysgu sut olwg sydd ar "normal", yn rhoi sgôr anomaledd , ac yna'n penderfynu a ddylid galw bod dynol (neu rwystro'r peth yn awtomatig) yn seiliedig ar drothwy . Y diafol yw sut rydych chi'n diffinio "normal" pan fydd eich data yn dymhorol, yn flêr, yn symud, ac weithiau'n dweud celwydd wrthych chi. [1]

Erthyglau y gallech fod eisiau eu darllen ar ôl yr un hon:

🔗 Pam y gall AI fod yn niweidiol i gymdeithas
Yn archwilio risgiau moesegol, economaidd a chymdeithasol mabwysiadu AI yn eang.

🔗 Faint o ddŵr y mae systemau AI yn ei ddefnyddio mewn gwirionedd
Yn egluro oeri canolfannau data, gofynion hyfforddi, ac effaith dŵr ar yr amgylchedd.

🔗 Beth yw set ddata AI a pham ei fod yn bwysig
Yn diffinio setiau data, labelu, ffynonellau, a'u rôl ym mherfformiad modelu.

🔗 Sut mae AI yn rhagweld tueddiadau o ddata cymhleth
Yn cwmpasu adnabod patrymau, modelau dysgu peirianyddol, a defnyddiau rhagweld yn y byd go iawn.


“Sut mae AI yn Canfod Anomaleddau?” 

Dylai ateb da wneud mwy na rhestru algorithmau. Dylai esbonio'r mecanweithiau a sut olwg sydd arnynt pan fyddwch chi'n eu cymhwyso i ddata go iawn, amherffaith. Yr esboniadau gorau:

  • Dangoswch y cynhwysion sylfaenol: nodweddion , llinellau sylfaen , sgoriau a throthwyon . [1]

  • Cyferbynnu teuluoedd ymarferol: pellter, dwysedd, un dosbarth, ynysu, tebygolrwydd, ail-greu. [1]

  • Ymdrin â chwilfrydedd cyfres amser: mae “normal” yn dibynnu ar amser y dydd, diwrnod yr wythnos, datganiadau, a gwyliau. [1]

  • Ymdriniwch â gwerthuso fel cyfyngiad go iawn: nid yw galwadau ffug yn unig yn annifyr - maent yn llosgi ymddiriedaeth. [4]

  • Cynhwyswch ddehongliadwyedd + bod dynol yn rhan o'r ddolen, oherwydd nid yw "mae'n rhyfedd" yn achos sylfaenol. [5]


Y Mecaneg Graidd: Llinellau Sylfaen, Sgorau, Trothwyon 🧠

Mae'r rhan fwyaf o systemau anomaledd - ffansi ai peidio - yn berwi i lawr i dair rhan symudol:

1) Cynrychiolaeth (h.y.: yr hyn y mae'r model yn ei weld )

Anaml y bydd signalau crai yn ddigonol. Rydych naill ai'n peiriannu nodweddion (ystadegau treigl, cymharebau, oedi, deltaau tymhorol) neu'n dysgu cynrychioliadau (mewnosodiadau, is-leoedd, ail-greu). [1]

2) Sgorio (aka: pa mor "rhyfedd" yw hyn?)

Mae syniadau sgorio cyffredin yn cynnwys:

  • Yn seiliedig ar bellter : ymhell o gymdogion = amheus. [1]

  • Yn seiliedig ar ddwysedd : dwysedd lleol isel = amheus (LOF yw'r prif enghraifft). [1]

  • Ffiniau un dosbarth : dysgu “normal,” nodi beth sy’n syrthio y tu allan. [1]

  • Tebygolrwydd : tebygolrwydd isel o dan fodel wedi'i ffitio = amheus. [1]

  • Gwall ailadeiladu : os na all model a hyfforddwyd ar normal ei ailadeiladu, mae'n debyg ei fod i ffwrdd. [1]

3) Trothwy (aka: pryd i ganu'r gloch)

Gall trothwyon fod yn sefydlog, yn seiliedig ar faint, fesul segment, neu'n sensitif i gost - ond dylid eu calibro yn erbyn cyllidebau rhybudd a chostau i lawr yr afon, nid dirgryniadau. [4]

Un manylyn ymarferol iawn: mae synwyryddion allanolion/newyddion scikit-learn yn datgelu sgoriau crai ac yna'n cymhwyso trothwy (a reolir yn aml trwy dybiaeth arddull halogiad) i drosi sgoriau yn benderfyniadau mewnol/allanolion [2]


Diffiniadau Cyflym Sy'n Atal Poen Yn Ddiweddarach 🧯

Dau wahaniaeth sy'n eich achub rhag camgymeriadau cynnil:

  • Canfod allanolion : efallai bod eich data hyfforddi eisoes yn cynnwys allanolion; mae'r algorithm yn ceisio modelu'r "rhanbarth normal dwys" beth bynnag.

  • Canfod newydd-deb : tybir bod data hyfforddi yn lân; rydych chi'n barnu a yw newydd yn cyd-fynd â'r patrwm arferol a ddysgwyd. [2]

Hefyd: mae canfod newydd-deb yn aml yn cael ei fframio fel dosbarthiad un dosbarth - gan fodelu normal oherwydd bod enghreifftiau annormal yn brin neu heb eu diffinio [1]

 

Anomaleddau AI Glitching

Ceffylau Gwaith Heb Oruchwyliaeth y Byddwch Chi'n eu Defnyddio Mewn Gwirionedd 🧰

Pan fydd labeli'n brin (sydd bob amser yn y bôn), dyma'r offer sy'n ymddangos mewn piblinellau go iawn:

  • Coedwig Ynysu : rhagosodiad cryf mewn llawer o achosion tablaidd, a ddefnyddir yn helaeth yn ymarferol ac a weithredir yn scikit-learn. [2]

  • SVM Un Dosbarth : gall fod yn effeithiol ond mae'n sensitif i diwnio a rhagdybiaethau; mae scikit-learn yn galw'n benodol allan yr angen am diwnio hyperbaramedr gofalus. [2]

  • Ffactor Allanol Lleol (LOF) : sgorio clasurol yn seiliedig ar ddwysedd; gwych pan nad yw "normal" yn smotyn taclus. [1]

Mae timau'n ailddarganfod profiad ymarferol bob wythnos: mae LOF yn ymddwyn yn wahanol yn dibynnu a ydych chi'n gwneud canfod allanolion ar y set hyfforddi yn erbyn canfod newydd-deb ar ddata newydd - mae scikit-learn hyd yn oed yn gofyn am novelty=True i sgorio pwyntiau anweledig yn ddiogel. [2]


Sylfaen Gadarn Sy'n Dal i Weithio Pan Fo Data'n Anwadal 🪓

Os ydych chi yn y modd “dim ond rhywbeth sydd ei angen arnom nad yw'n ein hanfon ni i anghof”, mae ystadegau cadarn yn cael eu tanbrisio.

Mae'r sgôr-z wedi'i haddasu yn defnyddio'r canolrif a'r MAD (gwyriad absoliwt canolrifol) i leihau sensitifrwydd i werthoedd eithafol. Mae llawlyfr EDA NIST yn dogfennu'r ffurf sgôr-z wedi'i haddasu ac yn nodi rheol gyffredinol "allgleifiad posibl" a ddefnyddir yn gyffredin ar werth absoliwt uwchlaw 3.5 . [3]

Ni fydd hyn yn datrys pob problem anomaledd - ond yn aml mae'n amddiffynfa gyntaf gref, yn enwedig ar gyfer metrigau swnllyd a monitro cynnar. [3]


Realiti Cyfres Amser: Mae “Normal” yn dibynnu ar Bryd ⏱️📈

Mae anomaleddau cyfres amser yn anodd oherwydd cyd-destun yw'r pwynt cyfan: gellid disgwyl cynnydd sydyn am hanner dydd; gallai'r un cynnydd sydyn am 3 y bore olygu bod rhywbeth ar dân. Felly mae llawer o systemau ymarferol yn modelu normalrwydd gan ddefnyddio nodweddion sy'n ymwybodol o amser (oedi, deltaau tymhorol, ffenestri treigl) a gwyriadau sgôr o'i gymharu â'r patrwm disgwyliedig. [1]

Os mai dim ond un rheol rydych chi'n ei chofio: segmentwch eich llinell sylfaen (awr/dydd/rhanbarth/haen gwasanaeth) cyn i chi ddatgan bod hanner eich traffig yn "annormal". [1]


Gwerthusiad: Y Trap Digwyddiadau Prin 🧪

Mae canfod anomaledd yn aml yn "nodwydd mewn tas wair", sy'n gwneud gwerthuso'n rhyfedd:

  • Gall cromliniau ROC edrych yn dwyllodrus o iawn pan fo ffactorau positif yn brin.

  • Mae golygfeydd cofio manwl gywir yn aml yn fwy addysgiadol ar gyfer lleoliadau anghytbwys oherwydd eu bod yn canolbwyntio ar berfformiad ar y dosbarth cadarnhaol. [4]

  • Yn weithredol, mae angen cyllideb rhybuddio : faint o rybuddion yr awr y gall bodau dynol eu dosbarthu mewn gwirionedd heb roi'r gorau i'w cynddaredd? [4]

Mae ôl-brofi ar draws ffenestri treigl yn eich helpu i ddal y modd methiant clasurol: “mae'n gweithio'n hyfryd… ar ddosbarthiad y mis diwethaf.” [1]


Dehongliadwyedd a Gwraidd yr Achos: Dangoswch Eich Gwaith 🪄

Mae rhoi rhybudd heb esboniad fel cael cerdyn post dirgel. Rhywfaint yn ddefnyddiol, ond yn rhwystredig.

Gall offer dehongli helpu drwy bwyntio at ba nodweddion a gyfrannodd fwyaf at sgôr anomaledd, neu drwy roi esboniadau arddull “beth fyddai angen ei newid er mwyn i hyn edrych yn normal?”. Mae'r Interpretable Machine Learning yn ganllaw cadarn, beirniadol i ddulliau cyffredin (gan gynnwys priodoliadau arddull SHAP) a'u cyfyngiadau. [5]

Nid cysur rhanddeiliaid yn unig yw'r nod - ond blaenoriaethu cyflymach a llai o ddigwyddiadau ailadroddus.


Dolenni Defnyddio, Drifftio, ac Adborth 🚀

Nid yw modelau'n byw mewn sleidiau. Maen nhw'n byw mewn piblinellau.

Stori gyffredin am y “mis cyntaf mewn cynhyrchu”: mae’r synhwyrydd yn bennaf yn nodi defnydd, swyddi swp, a data coll… sy’n dal yn ddefnyddiol oherwydd ei fod yn eich gorfodi i wahanu “digwyddiadau ansawdd data” oddi wrth “anomaleddau busnes”.

Yn ymarferol:

  • Monitro'r drifft ac ailhyfforddi/ail-raddnodi wrth i ymddygiad newid. [1]

  • Mewnbynnau sgôr logio + fersiwn model fel y gallwch atgynhyrchu pam y newidiwyd y dudalen. [5]

  • Cipio adborth dynol (rhybuddion defnyddiol vs. swnllyd) i addasu trothwyon a segmentau dros amser. [4]


Ongl Diogelwch: IDS a Dadansoddeg Ymddygiadol 🛡️

Yn aml, mae timau diogelwch yn cyfuno syniadau anomaledd â chanfod sy'n seiliedig ar reolau: llinellau sylfaen ar gyfer "ymddygiad gwesteiwr arferol," ynghyd â llofnodion a pholisïau ar gyfer patrymau drwg hysbys. Mae SP 800-94 (Terfynol) NIST yn parhau i fod yn fframwaith a ddyfynnir yn eang ar gyfer ystyriaethau system canfod ac atal ymyrraeth; mae hefyd yn nodi na ddaeth drafft 2012 "Rev. 1" erioed yn derfynol a chafodd ei dynnu'n ôl yn ddiweddarach. [3]

Cyfieithiad: defnyddiwch ML lle mae'n helpu, ond peidiwch â thaflu'r rheolau diflas i ffwrdd - maen nhw'n ddiflas oherwydd eu bod nhw'n gweithio.


Tabl Cymharu: Dulliau Poblogaidd ar yr olwg gyntaf 📊

Offeryn / Dull Gorau Ar Gyfer Pam mae'n gweithio (yn ymarferol)
Sgorau z cadarn / wedi'u haddasu Metrigau syml, llinellau sylfaen cyflym Pas cyntaf cryf pan fyddwch chi angen “digon da” a llai o larymau ffug. [3]
Coedwig Ynysu Nodweddion tablaidd, cymysg Gweithrediad diofyn cadarn a ddefnyddir yn helaeth yn ymarferol. [2]
SVM Un Dosbarth Rhanbarthau cryno “normal” Canfod newydd-deb yn seiliedig ar ffiniau; mae tiwnio yn bwysig iawn. [2]
Ffactor Allanol Lleol Normalau tebyg i amlochrog Mae cyferbyniad dwysedd yn erbyn cymdogion yn dal rhyfeddod lleol [1]
Gwall ail-greu (e.e., arddull autoamgodiwr) Patrymau uchel-ddimensiwn Hyfforddwch ar normal; gall gwallau ail-greu mawr nodi gwyriadau. [1]

Cod twyllo: dechreuwch gyda llinellau sylfaen cadarn + dull diflas heb oruchwyliaeth, yna ychwanegwch gymhlethdod dim ond lle mae'n talu rhent.


Llyfr Chwarae Mini: O Sero i Rybuddion 🧭

  1. Diffiniwch “rhyfedd” yn weithredol (oedi, risg twyll, difrod CPU, risg rhestr eiddo).

  2. Dechreuwch gyda llinell sylfaen (ystadegau cadarn neu drothwyon wedi'u segmentu). [3]

  3. Dewiswch un model heb oruchwyliaeth fel pas cyntaf (Coedwig Ynysu / LOF / SVM Un Dosbarth). [2]

  4. Gosodwch drothwyon gyda chyllideb rybudd , a gwerthuswch gyda meddwl arddull PR os yw pethau cadarnhaol yn brin. [4]

  5. Ychwanegwch esboniadau + logio fel bod pob rhybudd yn atgynhyrchadwy ac yn ddadfygadwy. [5]

  6. Profi yn ôl, cludo, dysgu, ail-raddnodi - mae drifft yn normal. [1]

Gallwch chi wneud hyn mewn wythnos yn bendant… gan dybio nad yw eich stampiau amser yn cael eu dal at ei gilydd gyda thâp dwythell a gobeithio. 😅


Sylwadau Terfynol - Rhy Hir, Wnes i Ddim Ei Ddarllen🧾

Mae AI yn canfod anomaleddau drwy ddysgu darlun ymarferol o “normal,” sgorio gwyriadau, a nodi’r hyn sy’n croesi trothwy. Mae’r systemau gorau yn ennill nid drwy fod yn fflachlyd, ond drwy gael eu calibro : llinellau sylfaen wedi’u segmentu, cyllidebau rhybuddio, allbynnau y gellir eu dehongli, a dolen adborth sy’n troi larymau swnllyd yn signal dibynadwy. [1]


Cyfeiriadau

  1. Pimentel et al. (2014) - Adolygiad o ganfod newydd-deb (PDF, Prifysgol Rhydychen) darllen mwy

  2. Dogfennaeth scikit-learn - Canfod Newydd-deb ac Allgleifion darllen mwy

  3. e-Lawlyfr NIST/SEMATECH - Canfod Allgleifion darllen mwy a NIST CSRC - SP 800-94 (Terfynol): Canllaw i Systemau Canfod ac Atal Ymyrraeth (IDPS) darllen mwy

  4. Saito a Rehmsmeier (2015) - Mae'r Plot Manwl-Galw yn Fwy Addysgiadol na'r Plot ROC Wrth Werthuso Dosbarthwyr Deuaidd ar Setiau Data Anghytbwys (PLOS ONE) darllen mwy

  5. Molnar - Dysgu Peirianyddol Dehongladwy (llyfr gwe) darllen mwy

Dewch o hyd i'r AI Diweddaraf yn y Siop Swyddogol ar gyfer Cynorthwywyr AI

Amdanom Ni

Yn ôl i'r blog