KDnuggets

Od Sydney Firmin, Alteryx.

„v podstatě jsou všechny modely špatné, ale některé modely jsou užitečné.“– George Pole

Tento slavný citát George Box byl poprvé zaznamenán v roce 1976 v knize „Věda a Statistiky,“ publikoval v Journal of the American Statistical Association. Je důležitým citátem pro oblast statistik a analytických modelů a lze jej rozbalit ve dvou částech.

Všechny Modely Jsou Špatné,

kopat do tohoto prohlášení, musíme definovat a zkoumat, jaký model je.

pro kontext tohoto článku lze model považovat za zjednodušenou reprezentaci systému nebo objektu. Statistické modely přibližné vzorce v souboru dat tím, že předpoklady o datech, stejně jako prostředí byly shromážděny a použity.

tři široké kategorie předpoklady statistické modely jsou distribuční předpoklady (předpoklady o rozložení hodnot v proměnné nebo distribuce pozorovací chyby), strukturální předpoklady (předpoklady o funkční vztah mezi proměnnými), a cross-změna předpokladů (sdružené rozdělení pravděpodobnosti).

například lineární regresní model předpokládá, že vztahy mezi proměnnými v datové sadě jsou lineární (a pouze lineární). V očích lineárního modelu je jakákoli vzdálenost mezi pozorováními, která tvoří datovou sadu, a modelovanou čarou, pouze šum (tj.

nevěnujte pozornost vzdálenostem v modré barvě.

George Box uvedl, že všechny modely jsou v kontextu statistických modelů špatné. Protože samotná povaha modelu je zjednodušená a idealizovaná reprezentace něčeho, všechny modely budou v určitém smyslu špatné. Modely nikdy nebudou „pravdou“ , pokud pravda znamená zcela reprezentativní realitu. Je velmi důležité vzít v úvahu předpoklady učiněné při generování modelu, protože modely jsou skutečně užitečné pouze tehdy, jsou-li předpoklady dodrženy.

Mapy a Miniatury

Podobné připomínky Box „všechny modely jsou špatné“, jsou přítomny v mnoha různých oblastech.

existuje aforismus, který odkazuje na vztah mapa-území, připisovaný Alfredu Korzybskému:

mapa není územím, které představuje, ale pokud je správná, má podobnou strukturu jako území, což odpovídá jeho užitečnosti.

mapy jsou užitečné, protože se jedná o abstrakce skutečného objektu ve zvládnutelnějším měřítku, ale vždy vylučují určitou úroveň detailů. V závislosti na tom, jak velká oblast mapa zahrnuje, tam může být také určité zkreslení vzhledem k projekční mapy (způsobené složitější proces přeměny kulovitý světa na ploché zastoupení).

(zdroj obrázku.)

jedinou skutečně přesnou mapou by byla replikace území, které představuje v poměru 1: 1. Taková Mapa by však nebyla o nic užitečnější než navigace po samotném území.

zvažte citát básníka Paula Valeryho:

všechno jednoduché je falešné. Všechno, co je složité, je nepoužitelné.

pojmenovaný po profesorovi podnikání ve Stanfordu, Boniniho Paradox popisuje výzvu vytváření užitečných, úplných modelů nebo simulací složitých systémů. Při vývoji modelu často dochází k vyvažování mezi složitostí a přesností. Pokud je cílem modelu zpřehlednit vztah nebo systém, přidaná složitost tento účel porazí (i když by to mohlo zpřesnit model).

na vysoké úrovni vztah mapa-území také popisuje vztah mezi objektem a reprezentací objektu.

pokud jste někdy absolvovali třídu filozofie, možná jste narazili na dílo Zrada obrazů surrealistického umělce Reného Magritteho.

text se překládá na „toto není trubka.“A není. Nemůžeme Nacpat tento (digitální) obraz tabákem a kouřit ho, protože je to jen reprezentace skutečného objektu.

modely jsou abstrakce. Jako jsou mapy, nebo miniaturní architektonické modely nebo nákresy nemohou zachytit každý detail objektu nebo systému, které jsou založené na tom, i kdyby jen proto, že neexistují v reálném světě a ne fungovat stejným způsobem.

Pokud Jsou Všechny Modely Špatné, Proč Se Obtěžovat?

aforismus George Box není bez jeho kritiků.

zdá se, že problém mnoha statistiků s tímto citátem obecně spadá do dvou kategorií:

  1. modely, které se mýlí, je zřejmé tvrzení. Samozřejmě, že všechny modely jsou špatné, jsou to modely.
  2. tento citát se používá jako omluva pro špatné modely.

statistik J. Michael Steele byl kritický k pořekadlu (viz tento osobní esej). Hlavním argumentem Steele je, že „špatně“ přichází do hry pouze tehdy, pokud model neodpovídá správně na otázku ,kterou tvrdí, že odpovídá (např., že budova na mapě je špatně označena, ne že budova je reprezentována malým čtvercem). Steele pokračuje ve státě:

většina publikovaných statistických metod hladoví po jednom čestném příkladu.

Steele tvrdí, že statistické modely často nedosahují adekvátní míry způsobilosti a mnoho modelů vyvinutých statistiky nestačí pro zamýšlené případy použití.

v článku statistika jako věda, ne umění: Způsob, jak přežít v datové vědě, Mark van der Laan (Statistika na UC Berkeley) připisuje Box citát jako přispívající příčinu špatných statistických modelů a odmítá ji jako “ úplný nesmysl.“Pokračuje v psaní:

základem statistiky ( … ) nemohlo být svévolné zvolení „pohodlného“ statistického modelu. Nicméně, to je přesně to, co většina statistiků vesele, hrdě, s odkazem na citát „Všechny modely jsou špatné, ale některé jsou užitečné.“Vzhledem k tomu, modely, které jsou tak nereálné, že jsou indexovány pomocí konečných rozměrových parametrů jsou stále status quo, i když všichni souhlasí, že jsou známo, že je nepravdivé.

Jako řešení, Van der Laan hovory statistici přestat používat Box je citát, a aby závazek, aby se data, statistiky a vědecké metody, vážně. On vyzývá statistici trávit čas učení, jak jsou data v daném souboru dat byly generovány a zavázat se k rozvoji realistické statistické modely využívající strojové učení a data-adaptivní techniky odhadu více tradiční parametrické modely.

tento článek obsahuje odpovědi statistiků Michaela lavina a Christophera Tonga, stejně jako odpověď na odpovědi původního autora. Dva vyvracející statistici poukazují na příklady, kdy je známo, že modely jsou špatné, ale často se používají, protože jsou užitečné, a hodí se pro daný problém. Jejich příklady zahrnují tři různé modely světla, se nacházejí v oblasti optiky (geometrická optika, fyzikální optiky a kvantové optiky; všechny tři modely představují světlo jinak, jsou „špatné“, v jistém smyslu, a jsou stále zaměstnáni dnes), a (téměř) lineární vztah mezi log oxidu tok a teplota půdy nalézt v datech shromážděných v Harvard Lesa.

Van der Laan zase reaguje na tyto příklady a další kritiky svého článku, konkrétně na jeho koncept nalezení „pravého“ modelu. Odpovědi dopisy jsou rozhodně stojí za přečtení, Pokud máte zájem. To představuje aktivní oblast debaty v oblasti statistiky a datové vědy.

ale některé modely jsou užitečné

navzdory omezením modelů může být mnoho modelů velmi užitečných. Protože jsou zjednodušeny, modely jsou často užitečné při porozumění určité součásti nebo aspektu systému.

v kontextu datové vědy mohou být strojové učení a statistické modely užitečné pro odhad (predikci) neznámých hodnot. V mnoha kontextech, pokud předpoklady modelu vydrží, nejistý odhad poskytovaný silným statistickým modelem může být stále velmi užitečný pro rozhodování.

druhá, méně citovaná polovina moudrosti George Box je toto:

„praktickou otázkou je, jak špatně (modely) musí být, aby nebyly užitečné.“– George Pole

Pojďme se znovu podívat na naše lineární regrese příklad:

Většinou jsem strávil příliš mnoho času na tento obrázek použít jen jednou.

nyní se podívejme na další teoretický lineární regresní model vhodný pro jinou datovou sadu.

nevšímejte si vzdáleností … počkejte, to nemůže být správné.

oba obrázky ukazují chybu, ale jedna datová sada ukazuje jasně lineární vztah, zatímco druhá je logistická. Oba modely jsou „špatné“, ale jeden jasně zachycuje skutečný vztah mezi proměnnými, zatímco druhý ne, takže jeden užitečný a jeden zbytečný. Vyřazení vzdáleností modře jako šumu je rozumné, pokud mají data lineární vztah, ale tento předpoklad se rozpadne, když má vztah jiný funkční tvar než vybraný model.

Dělat Dobré Modely

skutečnost, že modely jsou špatné nebo omezené v rozsahu, co představují se mohlo zdát zřejmé, že mnoho lidí, které pracují s modely, ale bohužel, mnoho lidí si to neuvědomuje, nebo si myslíte, že o tom moc. Proto si myslím, že je důležité mít při vývoji modelu na paměti slova George Box. Nemělo by se používat jako výmluva k vytváření špatných modelů.

pro další čtení má Steele několik skvělých poznámek třídy: má Model smysl? a má ten Model smysl? Část II: využití dostatečnosti. Další skvělý zdroj je papír ‚Všechny modely jsou špatné…‘: úvod do modelu nejistota z modelu výběr workshopu, který se konal v roce 2011 v Groningenu.

dalším zajímavým čtením je, když se všechny modely mýlí z otázek vědy a techniky, což vyzývá Boxova slova jako výzvu k přísnější transparentnosti vědeckých a statistických modelů.

důležité je, abyste pochopili, jaké aspekty vašich dat jsou zachyceny vaším modelem a jaké aspekty nejsou. Je důležité zkontrolovat své předpoklady a výchozí body. Jako statistik nebo datový vědec, je vaší odpovědností vytvářet přísné modely a znát jejich omezení. Vždy oznamte svou nejistotu a rozsah vašeho modelu. S ohledem na to budete moci vytvořit modely, které, i když možná špatně, mohou být určitě užitečné.

originál. Přeloženo se svolením.

Bio: Geograf školením a datovým geekem v srdci, Sydney pevně věří, že data a znalosti jsou nejcennější, když je lze jasně sdělit a pochopit. Ve své současné roli jako Starší Data Science Obsahu Inženýr, dostane trávit své dny dělat to, co miluje nejlepší; transformace technické znalosti a výzkum poutavé, kreativní a zábavná obsahu pro Alteryx Společenství.

související:

  • 3 Největší Chyby na Učení, Data Science
  • 3 Velké Problémy s Big Data a Jak Je Řešit
  • Výběr Mezi Modelem Kandidátů