KDnuggets

De Sydney Firmin, Alteryx.

„în esență, toate modelele sunt greșite, dar unele modele sunt utile.”- George Box

acest celebru citat al lui George Box a fost înregistrat pentru prima dată în 1976 în lucrarea „știință și Statistică”, publicată în Jurnalul Asociației Americane de Statistică. Este un citat important în domeniul statisticilor și modelelor analitice și poate fi despachetat în două părți.

toate modelele sunt greșite

pentru a săpa în această afirmație, trebuie să definim și să examinăm ce este un model.

pentru contextul acestui articol, un model poate fi gândit ca o reprezentare simplificată a unui sistem sau obiect. Modelele statistice aproximează modelele dintr-un set de date, făcând presupuneri despre date, precum și despre mediul în care au fost colectate și aplicate.

cele trei mari categorii de ipoteze făcute de modelele statistice sunt ipoteze distributive (ipoteze despre distribuția valorilor într-o variabilă sau distribuția erorilor observaționale), ipoteze structurale (ipoteze despre relația funcțională dintre variabile) și ipoteze de variație încrucișată (distribuție comună a probabilității).

de exemplu, un model de regresie liniară presupune că relațiile dintre variabilele dintr-un set de date sunt liniare (și numai liniare). În ochii unui model liniar, orice distanță dintre observațiile care alcătuiesc setul de date și linia modelată este doar zgomot (adică fluctuații aleatorii sau inexplicabile ale datelor) și poate fi în cele din urmă ignorată.

nu vă gândiți la distanțele în albastru.

George Box a declarat că toate modelele sunt greșite în mod specific în contextul modelelor statistice. Deoarece însăși natura unui model este o reprezentare simplificată și idealizată a ceva, toate modelele vor fi greșite într-un anumit sens. Modelele nu vor fi niciodată „adevărul” dacă adevărul înseamnă în întregime reprezentativ pentru realitate. Este foarte important să se ia în considerare ipotezele făcute în generarea unui model, deoarece modelele sunt cu adevărat utile doar atunci când ipotezele sunt reținute.

Hărți și miniaturi

observații similare cu cele ale lui Box „toate modelele sunt greșite” sunt prezente în multe domenii diferite.

există un aforism care face referire la relația hartă-teritoriu, atribuită lui Alfred Korzybski:

o hartă nu este teritoriul pe care îl reprezintă, dar, dacă este corectă, are o structură similară cu teritoriul, ceea ce explică utilitatea sa.

hărțile sunt utile deoarece sunt abstracții ale unui obiect real la o scară mai ușor de gestionat, dar vor exclude întotdeauna un anumit nivel de detaliu. În funcție de câtă zonă include o hartă, poate exista și o anumită distorsiune datorită proiecției hărții (cauzată de procesul complicat de conversie a unui glob sferic într-o reprezentare plană).

(sursa imaginii.)

singura hartă cu adevărat precisă ar fi o replicare 1:1 a teritoriului pe care îl reprezintă. Cu toate acestea, o astfel de hartă nu ar fi mai utilă decât navigarea pe teritoriul în sine.

luați în considerare citatul poetului Paul Valery:

totul simplu este fals. Tot ceea ce este complex este inutilizabil.

numit după un profesor de afaceri de la Stanford, Paradoxul lui Bonini descrie provocarea de a crea modele utile, complete sau simulări ale sistemelor complexe. Există adesea un act de echilibrare între complexitate și precizie în dezvoltarea modelului. Dacă scopul unui model este de a face o relație sau un sistem mai clar, complexitatea adăugată învinge acest scop (deși ar putea face modelul mai precis).

la nivel înalt, relația hartă-teritoriu descrie, de asemenea, relația dintre un obiect și o reprezentare a obiectului.

dacă ați luat vreodată o clasă de filozofie, este posibil să fi întâlnit lucrarea trădarea imaginilor de către artistul suprarealist Rene Magritte.

textul se traduce prin „aceasta nu este o țeavă.”Și nu este. Nu putem umple această imagine (digitală) cu tutun și să o fumăm, deoarece este doar o reprezentare a unui obiect real.

modelele sunt abstracții. La fel ca hărțile sau modelele arhitecturale în miniatură sau schemele, ele nu pot surprinde fiecare detaliu al obiectului sau sistemului pe care se bazează, doar pentru că nu există în lumea reală și nu funcționează în același mod.

Dacă Toate Modelele Sunt Greșite, De Ce Deranjez?

Aforismul lui George Box nu este lipsit de critici.

problema mulți statisticieni au cu acest citat par să se încadreze în linii mari în două categorii:

  1. modelele greșite sunt o afirmație evidentă. Desigur, toate modelele sunt greșite, sunt modele.
  2. acest citat este folosit ca o scuză pentru modelele proaste.

statisticianul J. Michael Steele a criticat zicala (vezi acest eseu personal). Argumentul principal al lui Steele este că „greșit” intră în joc numai dacă modelul nu răspunde corect la întrebarea la care pretinde că răspunde (de ex., că o clădire de pe o hartă este etichetată greșit, nu că clădirea este reprezentată de un pătrat mic). Steele merge mai departe la stat:

majoritatea metodelor statistice publicate tânjesc după un exemplu onest.

Steele susține că modelele statistice nu se ridică adesea la o măsură adecvată de fitness și multe modele dezvoltate de statisticieni nu sunt suficiente pentru cazurile de utilizare intenționate.

în articolul Statistica ca știință, nu ca artă: Modul de a supraviețui în știința datelor, Mark van der Laan (statistici la UC Berkeley) atribuie citatul casetei ca o cauză care contribuie la modele statistice proaste și îl respinge ca „prostii complete.”El continuă să scrie:

fundamentul statisticilor ( … ) nu ar fi putut fi selectarea arbitrară a unui model statistic „convenabil”. Cu toate acestea, tocmai asta fac majoritatea statisticienilor, referindu-se cu mândrie la Citat, „toate modelele sunt greșite, dar unele sunt utile.”Datorită acestui fapt, modelele care sunt atât de nerealiste încât sunt indexate de un parametru dimensional finit sunt încă status quo-ul, chiar dacă toată lumea este de acord că sunt cunoscute a fi false.

ca soluție, Van der Laan îi cheamă pe statisticieni să nu mai folosească citatul lui Box și să se angajeze să ia în serios datele, statisticile și metoda științifică. El solicită statisticienilor să petreacă timp învățând cum au fost generate datele dintr-un anumit set de date și să se angajeze să dezvolte modele statistice realiste folosind învățarea automată și tehnici de estimare adaptivă a datelor pe modele parametrice mai tradiționale.

acest articol are răspunsuri de la statisticienii Michael Lavine și Christopher Tong, precum și un răspuns la răspunsurile autorului original. Cei doi statisticieni care resping indică exemple în care se știe că modelele sunt greșite, dar sunt adesea folosite pentru că sunt utile și potrivite pentru o anumită problemă. Exemplele lor includ cele trei modele diferite de lumină găsite în domeniul opticii (optica geometrică, optica fizică și optica cuantică; toate cele trei modele reprezintă lumina diferit, sunt „greșite” într-un anumit sens și sunt încă folosite astăzi) și relația (aproape) liniară dintre Jurnalul fluxului de carbon și temperatura solului Găsită în datele colectate În Pădurea Harvard.

la rândul său, Van der Laan răspunde acestor exemple și altor critici ale articolului său, în special conceptului său de a găsi un model „adevărat”. Scrisorile de răspuns sunt cu siguranta merita o citire, dacă sunteți interesat. Aceasta reprezintă un domeniu activ de dezbatere în domeniile statisticii și științei datelor.

dar unele modele sunt utile

în ciuda limitărilor modelelor, multe modele pot fi foarte utile. Deoarece sunt simplificate, modelele sunt adesea utile în înțelegerea unei anumite componente sau fațete a unui sistem.

în contextul științei datelor, învățarea automată și modelele statistice pot fi utile pentru estimarea (prezicerea) valorilor necunoscute. În multe contexte, dacă ipotezele modelului rezistă, o estimare incertă furnizată de un model statistic puternic poate fi încă foarte utilă pentru luarea deciziilor.

a doua jumătate, mai puțin citată, a înțelepciunii lui George Box este aceasta:

„întrebarea practică este cât de greșite trebuie să fie (modelele) pentru a nu fi utile.”- George Box

să aruncăm o altă privire la exemplul nostru de regresie liniară:

de cele mai multe ori am petrecut prea mult timp pe această imagine pentru a o folosi o singură dată.

acum, să aruncăm o privire la un alt model teoretic de regresie liniară potrivit unui set de date diferit.

nu ține cont de distanțe … stai că nu poate fi corect.

ambele cifre prezintă erori, dar un set de date demonstrează o relație clar liniară, în timp ce celălalt este logistic. Ambele modele sunt „greșite”, dar una surprinde în mod clar o relație reală între variabile, în timp ce cealaltă nu, făcând una utilă și una inutilă. Aruncarea distanțelor în albastru ca zgomot este rezonabilă dacă datele au o relație liniară, dar această presupunere se destramă atunci când relația are o formă funcțională diferită de modelul selectat.

realizarea de modele bune

faptul că modelele sunt greșite sau limitate în ceea ce reprezintă ar putea părea evident pentru mulți oameni care lucrează cu modele, dar, din păcate, mulți oameni nu-și dau seama sau nu se gândesc prea mult la asta. De aceea, consider că este important să țineți cont de cuvintele lui George Box atunci când dezvoltați un model. Nu ar trebui folosit ca scuză pentru a construi modele proaste.

pentru lecturi suplimentare, Steele are câteva note de clasă grozave: modelul are sens? și modelul are sens? Partea a II-a: exploatarea suficienței. O altă mare resursă este lucrarea ‘ toate modelele sunt greșite…’: o introducere în incertitudinea modelului dintr-un atelier de selecție a modelelor organizat în 2011 la Groningen.

o altă lectură interesantă este atunci când toate modelele sunt greșite din problemele din știință și tehnologie, ceea ce face apel la cuvintele lui Box ca un apel la o transparență mai strictă în modelele științifice și statistice.

cel mai important lucru de luat din toate acestea este să vă asigurați că înțelegeți ce aspecte ale datelor dvs. sunt capturate de modelul dvs. și ce aspecte nu sunt. Este esențial să vă verificați ipotezele și punctele de plecare. În calitate de statistician sau om de știință de date, este responsabilitatea dvs. să produceți modele riguroase, precum și să cunoașteți limitările acestora. Raportați întotdeauna incertitudinea, precum și domeniul de aplicare al modelului dvs. Având în vedere acest lucru, veți putea face modele care, deși posibil greșite, pot fi cu siguranță utile.

Original. Repostat cu permisiune.

Bio: Un geograf de formare și un geek de date la inimă, Sydney crede cu tărie că datele și cunoștințele sunt cele mai valoroase atunci când acestea pot fi comunicate în mod clar și înțeles. În rolul său actual de inginer de conținut Sr. Data Science, ea își petrece zilele făcând ceea ce iubește cel mai bine; transformând cunoștințele tehnice și cercetarea în conținut captivant, creativ și distractiv pentru comunitatea Alteryx.

legate de:

  • cele mai mari 3 greșeli în învățarea științei datelor
  • 3 mari probleme cu datele mari și cum să le rezolvi
  • alegerea între candidații Model