Milyen (lesz) a statisztika a XXI. században (paradigmaváltás)?

szerző: Hunyadi László, Professzor Emeritus, Budapesti Corvinus Egyetem
Ennek a rövid vitairatnak a kiinduló pontja az, hogy a statisztika tartalma, feladatai, eszközei, módszerei, azaz az egész statisztikai folyamat átalakulóban van. Ezt az átalakulást lenne jó mielőbb megérteni, feltérképezni, a szereplőket valamelyest felkészíteni a változásokra. Ez persze érinti az összes szereplőt a statisztika készítőitől, terjesztőitől a felhasználókon és kutatókon át az oktatókig, illetve a hallgatókig.
Eredendően ezt a témát valamilyen szakmai fórumon szerettem volna előadni, hiszen akkor és ott lehetőség lett volna a résztvevők hozzászólásaival együtt egy értékes szakmai vitát kiváltani, hogy ne mondjam, kiprovokálni. Ez egy ilyen témának feltétlenül előnyére vált volna. De a koronavírus közbeszólt: a szakmai fórumok nyilvános előadásai elmaradtak. Igaz, ebben az időszakban is voltak interneten szervezett szakmai fórumok, de a korábbiaknál jóval kisebb számban, érdeklődéssel és intenzitással. Ezért aztán ezt a témát – ami végső soron nem napi aktualitás – nem is nagyon erőltettem. Ehelyett – kihasználva a bezártság adta lehetőséget – írásban próbálom meg a szakma elé tárni ezeket a gondolatokat. Remélem, hogy a kitűzött célt sikerül elérni, azaz felkelteni a statisztikával hivatásszerűen foglalkozók figyelmét azokra a korszakos változásokra, melyek első jeleit már most tapasztalhatjuk, de amelyek nagyobb része még előttünk áll. Egy ilyen felismerés sokat jelenthet a viszonylag gyors alkalmazkodás, a fájdalommentes átmenet terén.
1. A statisztika célja, területei, hatásköre
A statisztika alapvető célja, úgy gondolom, nem változik: információk begyűjtése, rendezése, tömörítése, elemzése és közlése. De már korábban felmerült a kérdés, hogy valójában mi is a statisztika? Köztudott, hogy maga a szó a Status (állam) szóból ered, és indulásképp (még évszázadokkal ezelőtt) az egyes államok földrajzi, területi, gazdasági, népesedési stb. helyzetének leírása volt a statisztika fő célja. Ebben az értelemben használták és tanították évszázadokon keresztül. A magyar statisztika valódi megalapítói, Keleti Károly, Fényes Elek, majd később az I. világháború után Buday László az állam alapos leírását adták. Kiemelendő, hogy az utóbb említett Buday részletes munkát („statisztikai elemzést”) készített Trianon hatásairól. Érdemes megjegyezni, hogy a trianoni békeszerződés körül mennyire megélénkültek a „statisztika” jellegű munkák: az egyes szerzők a „statisztikát” érvként használták a területi vitákban.
A statisztika igazi szétválása leíró statisztikára (ami a német iskola jellemzője volt) és következtető statisztikára (ami angolszász területeken lett népszerű) a múlt század 30-as éveire tehető, elsősorban a természettudományok gyors előretörése miatt. Ekkor alakult ki – elsősorban Gauss, Neyman, Pearson és Fisher munkássága nyomán – az az eszköztár, ami a klasszikus valószínűségszámításon alapul, és akkortól kezdték el alkalmazni a statisztikát (immáron eléggé más értelemben) a természettudományokban, elsősorban az akkor vezető tudományágnak számító fizikában. Ekkor alakult ki a statisztika matematikai háttere, és először matematikai statisztika néven, majd egyszerűen statisztika címen a ma általánosan használt klasszikus statisztikai eszköztár. Ami az alkalmazásokat illeti, a természettudományokban erőre kapott diszciplina – bár más formában – visszaszivárgott a társadalom- és gazdaságtudományokba, megalapozva egyebek közt az ökonometriát, és ebből kiindulva a szélesebb értelemben vett sztochasztikus gazdaság- és társadalommatematikát és -statisztikát. Innen már csak egy lépés volt – és ennek a lépésnek nagy segítséget nyújtott a rohamosan fejlődő számítástechnika, informatika – az, hogy a statisztika elinduljon a mindennapi élet felé demokratizálódni, szocializálódni.
Mi várható tehát az elkövetkezendő évtizedekben e téren? Alighanem az, hogy a számítástechnika fejlődésével a statisztika is egyre több lehetőséget, általánosan és egyszerűen használható programot és programcsomagot kap. Ezek egy része a köznapi használatra, más része pedig a különböző szakmák számára készülhet és tartalmi (módszertani) megalapozásuk legalábbis vitatható. Amennyire jó az, hogy a statisztika egyre nagyobb népszerűséget és nyilvánosságot kap, annyira veszélyes az, hogy módszerei, az alkalmazás feltételei, a következtetés – mondjuk így – tudományos megalapozottsága veszélybe kerül. De nézzük ezt meg részletesebben!
2. Adatok, információk
A statisztika – bárhogy is értelmezzük – azzal kezdődik, hogy adatokat gyűjt. Ez az egyik olyan pont, ahol nagyot változott a világ az elmúlt években. Kezdetekben a kommunikáció, de még a közlekedés fejletlensége is lényeges korlátokat szabott a beszerezhető adatoknak térben és időben egyaránt. Erről nem érdemes többet szólni, hiszen mindenki tudja, vagy ha nem is tudja, de el tudja képzelni, hogy milyen nehézségekkel küzdött az adatgyűjtés a krisztusi kortól napjainkig, a természettudomány kezdetétől a legmodernebb technikáig.
Kezdetben vala a teljes körű felvétel, ami sokáig, nagyon sokáig a statisztika alapvető, sőt egyetlen forrása volt. A mintavételes statisztika igazán a mintából való következtetéssel együtt terjedt el, és sokáig tartott, amíg ennek szabályait a statisztika tudománya kidolgozta. Ezek a tervezett minták általában IID (Independent and Identically Distributed) tulajdonságúak voltak, a következtetéselmélet pedig a klasszikus valószínűségszámításra épült. Nagy volt a jelentősége a határeloszlás-tételeknek, azaz azoknak a matematikailag bizonyított állításoknak, amelyek elvben végtelen nagy, gyakorlatilag pedig elegendően nagy mintákra mondtak/mondanak ki olyan állításokat, amelyek segítségével mintákból nagy valószínűséggel lehet következtetni a sokaság jellemzőinek viselkedésére. Fontos megemlíteni, hogy az így kialakult következtető statisztika nagyon hasonló volt a természet- és társadalomtudományokban, jóllehet az eltérő filozófia, az eltérő származás, az olykor lényegesen eltérő alkalmazások, és az ugyancsak eltérő (például mintavételi) lehetőségek látszólag nagyon más eszköztárat hoztak létre. Valójában ezek gyökere azonban, az említett következtetési folyamat nagyon hasonló. Lényegileg ez jellemezte a XX. század statisztikáját, döntő módon ezt oktatják és oktatjuk, ebben a szellemben működnek a hivatásos és nem hivatásos statisztikai intézmények, és ez az első olyan pont, amelyik nagyjából az utóbbi évtizedben erősen változóban van.
Kezdjük talán a mintával. Az egyik pont, ahol ez a szép klasszikus modell elkezdett bomlani, a mintavétel, a minta értelmezése. (Ezen a ponton – és sokszor később szélesebb körben is – elsősorban a társadalmi-gazdasági területen alkalmazott statisztikáról beszélek, mert a természettudomány, az orvostudományok stb. területére messze nincs elegendő rálátásom.) Egyre több területre terjedt ki a statisztikai elemzés, olyanokra is, ahol a klasszikus IID mintavétel nem megvalósítható. Hozzá kell tenni még azt is, hogy válaszadói hajlandóság az utóbbi években, évtizedekben drasztikusan romlik. Olyan területeken, ahol korábban elfogadható és kezelhető arányú válaszmegtagadást tapasztaltak (például néhány népszámlálási kérdés esetén), mára a nemválaszolások olyan arányát tapasztalják, hogy az szinte lehetetlenné teszi a statisztikák érdemi elemzését. Jórészt ezért találták ki és ezért alkalmazzák a „hozzáférhetőségi minta” fogalmát. A hozzáférhetőségi minta valójában olyan minta, amelyik egészen egyszerűen nem teljesíti a véletlen minta kritériumait (pontosabban semmi sem bizonyítja, hogy rendelkezik azokkal a kritériumokkal). „Olyan minta, amilyet éppen meg tudunk szerezni.” Ennek ellenére több területen (pszichológia, szociológia, egyes gazdasági területek, és félő, hogy ilyen az orvostudományok több ága is) alkalmazzák, ilyen mintákra komoly felépítményként modelleket készítenek, ezzel voltaképpen korrodálják a mintavételes statisztikát, a következtetéselméletet. De ez még csak a kezdet, a nagyobb bajok innen kezdődnek. Ezek egyike az internetes adatgyűjtés, ahol – persze ismét csak kényelmi és hozzáférhetőségi okok miatt – tudatosan megszegik a véletlen mintavétel szabályait, pontosabban olyan eljárásokat választanak, ahol semmilyen módon nem lehet ellenőrizni azt, hogy a kapott minta valóban abból vagy éppen olyan sokaságból származik, mely valóban képviseli a sokaságot.
Ehhez a ponthoz kapcsolódik a big data (nagy adathalmazok) fogalma, ami sok szempontból új jelenség a statisztikában. Röviden arról van szó, hogy a rohamosan fejlődő technika egy sor új adatszerzési lehetőséget tár fel a mobiltelefonok automatikus rögzítéseitől (hely, cselekmények, kapcsolódó személyek stb.) a különféle böngészőkön keresztül az elektronikusan rögzített (szkennelt) vásárlásokig az élet rengeteg területén. Így eddig elképzelhetetlen mennyiségű adathoz lehet viszonylag egyszerűen hozzájutni, és a statisztika – amelynek egyik fő célja a nagymennyiségű információból való tömörítés – egészen új lehetőségeket kap. Ezekkel a lehetőségekkel persze sokan élnek is, kérdés azonban, hogy helyesen-e. Ez valóban egy olyan terület, amelyet a statisztikának nagyon alaposan kellene tanulmányoznia, meg kellene vizsgálnia, hogy az alkalmazott módszerek valóban indokolják-e azokat az eredményeket, amelyekkel a legváratlanabb helyeken találkozunk, azt, hogy a big data kezelhető-e egyáltalán a szokásos módszerekkel, ezek a minták valóban beilleszthetők-e a hagyományos minták közé, azt, hogy a nagy mennyiség valóban ellensúlyozhatja-e a minőségi hiányosságokat, és még sok hasonló kérdést. Az a véleményem, hogy mielőtt a big data-t a statisztika új csodafegyverévé avatnánk, alaposan fel kellene tárni előnyeit, hátrányait, egyáltalán szakmai sajátosságait. Tudomásom szerint a magyar nyelvű szakirodalomban ilyen fajta részletes és alapos elemzés nem létezik, és – bár már kevéssé ismerem – a nemzetközi statisztikai irodalom sem foglakozott tételesen az ilyen „nem tervezett” adatforrásokkal.
Az adatbázissal, mint kiindulóponttal további problémák is vannak. Az egyik ilyen probléma az, hogy a biztos adatokat kiváltja (vagy pótolja, kiegészíti?) a bizonytalan adat, ami többféle is lehet. Egyfelől lehet fuzzy adat. A fuzzy adatok lényege az, hogy az adathalmazok szélei –mondjuk úgy – bizonytalan státuszúak. Például ha azt mondjuk, hogy öregek, akkor természetesen el lehet határolni mesterségesen (mondjuk a nyugdíjkorhatárral) az öregeket a népesség egyéb részétől, és ha az öregség határát 65 évben húzzuk meg, akkor klasszikus értelemben csoportokat alkottunk. Egyértelműen szétválasztottuk a sokaságot két diszjunkt részsokaságra, de lehet, sőt valószínű, hogy egy sor elemzésnél egy ilyen merev elválasztás nem szerencsés. Sok olyan szempontot és sok olyan egyént lehet találni, akik e határ alatt öregek, illetőleg felette még nem öregek, nem viselkednek a kategóriájuknak megfelelően. Ilyenkor a fuzzy (bizonytalan) logikával általában minden adathoz hozzárendelünk még egy számértéket is, amellyel egyik vagy másik kategóriába esik. A fuzzy adatokkal való számolás, és általában a fuzzy gondolkodás nem terjedt el, pedig lehet, hogy ez lesz a jövő egyik érdekes útja. A fuzzy adatok néhány problémájára lásd például Novák et al. [2016] művét, illetve a wikipedia.hu részletes szócikkét.
A fuzzy szemlélet mellett a bizonytalan adatkezelés egy másik iránya a pontatlan valószínűség (ambiguity). Ez a koncepció jelenleg ugyan elsősorban a döntéselmélethez kapcsolódik, de nem nehéz belátni, hogy milyen szerepe lehet a statisztikai elemzések terén. A pontatlan valószínűség fogalmát, kezelését, néhány alkalmazását és szakirodalmát Pintér [2020] cikkéből ismerhetjük meg. Végül a bizonytalan adatokkal kapcsolatban megemlítjük, hogy a statisztikai elemzések során gyakorta, sőt egyre gyakrabban találkozunk rejtett adatokkal, olyanokkal, amelyekről tudjuk, hogy vannak, hatásuk olykor egyértelműen kimutatható, de vagy nem megfigyelhetők, vagy sok, nehezen körülírható, nehezen számba vehető adat, illetve változó együttes hatásaként (például azok lineáris kombinációjaként) jelennek meg. Ezek a látens változók, melyek rejtett adatoknak is tekinthetők, és amelyek a statisztikai modellezés eszközeivel olykor kiválthatók, közelíthetők, mégis a statisztika információkkal való ellátottságánál kell róluk, mint egyre fontosabbá váló tényezőkről szólni.
Még egy terület van a statisztikán belül, amely az input oldaláról befolyásolja, sőt lényegesen befolyásolja az elemzés menetét, módszereit, egész szemléletét, ez pedig a bayesi szemléletű statisztika. A bayesi statisztika, mint ismeretes, a mintában lévő információkat kombinálja a mintán kívüli (például szubjektív) információkkal, és így hoz létre az ún. posteriorokon keresztül a hagyományos statisztikai elemzések eredményénél jóval gazdagabb, sokrétűbb, és persze olykor vitathatóbb eredményeket. A bayesi statisztikáról szerencsére már itthon is sokat olvashatunk (például [Várpalotai, 2008; Hunyadi, 2011; Kehl-Várpalotai, 2012]). Meg kell jegyezni, hogy mióta elterjednek az informatika hatásos eszközei (elsősorban az MCMC-módszerek), a bayesi statisztika határozottan felértékelődik. Dolgozatunk tárgya szempontjából ehelyütt azt kell hangsúlyoznunk, hogy a mintán kívüli információk felhasználásával, az ember-gép kapcsolat új szintre emelésével a statisztika egyik igazán ígéretes területe látszik megerősödni, ami a jövőbeni fejlődés egyik fontos eleme lehet.
3. Az elemzés módszerei
Természetesen az elemzés módszere, apparátusa alapvetően meg fog változni. Úgy gondolom, hogy a statisztika klasszikus leíró része mindenképpen megmarad, hiszen ennek hasznossága nem kérdőjeleződik meg. Ezeknek a leíró mutatóknak a tartalma sem hiszem, hogy változik, de feltehető, hogy kiegészül sok más mutatóval. Úgy gondolom, hogy a statisztikába egyre több olyan változót, jelenséget fogunk bevonni, amelyeket eddig minőségi ismérvekként, változókként ismertünk, és kevésbé tartottunk alkalmasnak arra, hogy a számszerű elemzések részei legyenek. Ezért, úgy gondolom, ezek nagy fejlődés előtt állnak, ennél fogva a minőségi skálák felértékelődnek. Egyfolytában Gauss mondása jár a fejemben: „ …mérd meg azt, ami mérhető, és ami nem mérhető, tedd mérhetővé!”Igen, azt gondolom, egyre több olyan jelenség lesz, amelyet mérhetővé kívánunk tenni, és alkalmazni kívánjuk a leíró statisztika ismert és még nem ismert eljárásait.
Más kérdés, hogy hogyan változik a klasszikus statisztikai következtetéselmélet. Ezt aztán igazán nehéz előre látni, de a meglehetősen szigorú matematikai feltételezések közt érvényes szépen kidolgozott és kiegyensúlyozott fisheri gondolatkör alighanem háttérbe szorul. Ennek lényege: kiindulás valamiféle ismert eloszlásból (többnyire normális eloszlásból), becslés az OLS-sel, vagy az ML módszerrel, hipotézisvizsgálat, lineáris és lineárisra visszavezethető modellek szép kidolgozott rendszere. Szerepe más lesz, mint most: egyrészt kiindulási etalon, másrészt történeti érdekesség, harmadrészt szellemi torna. De azért biztos vagyok abban, hogy ez, vagy legalábbis ennek egyes részei azért tovább élnek. Elegendő utalni arra, hogy meglehetősen tág feltételek közt a nagy minták és az azokból indított statisztikai eljárások jól beilleszthetők ebbe a keretbe, és a mintanagysággal – bizonyos keretek közt – aligha lesz probléma.
A klasszikus eszközök helyett (vagy inkább mellett) egyre inkább teret fognak nyerni azok az eljárások, amelyek nem használnak fel eloszlásbeli feltételezéseket, azaz az eloszlásmentes, az induló eloszlásokra érzéketlen (vagy kevéssé érzékeny), robusztus eljárások. Változni fognak alighanem a kritériumok is: az eddigi legkisebb négyzetek és likelihood eljárások mellett alighanem kinőnek majd a nem euklideszi távolságokon alapuló eljárások – mint ahogy ennek jeleit már most is látni. Mindez szakmai igény. Emellett az eszköztár rohamos fejlődése lehetőséget ad az eddig szép zárt rendszer többoldalú „felnyitására”. És itt térünk rá a – szerintem – leglényegesebb pontra, az eszközök rohamos fejlődésének hatására, arra hogy ez a fejlődés milyen lehetőségeket teremt meg a módszertan területén. Nyilvánvalóan arról van szó, hogy a számítástechnika (számítástudomány, informatika, kinek melyik tetszik jobban) eddig elképzelhetetlennek tartott fejlődése az, ami leginkább átalakítja a statisztikát (is). Míg egyes tudósok véleménye szerint a XX. században nem lehetett valaki jó (elméleti) statisztikus komoly matematikai alapozás nélkül, azt hiszem, a lényeg az, hogy a XXI. században a statisztika minden szempontból eltolódik a számítástechnika felé, és a fenti állítás most már úgy fogalmazható meg, hogy a XXI. század statisztikusának igen járatosnak kell lennie a számítástechnikában. De nézzük meg ezt kicsit részletesebben is!
Az egyik fontos irány a digitalizáció, az, hogy a valójában diszkrét folyamatokat a korábbi folytonosítási kísérletekkel szemben valóban diszkrét módszerekkel próbáljuk meg leírni. Itt alighanem arról van szó, hogy a valóban diszkrét folyamatokat a megfigyelt adatok szintjén próbáljuk meg kezelni, és nem kísérlünk meg mindent a matematikailag kétségkívül kényelmesebb folytonos modellekkel közelíteni. A folytonos-diszkrét párhuzam, illetve ellentét régi probléma a modellezésben (a statisztikai modellezésben is), de úgy tűnik, a számítástechnika fejlődése visz el a közeljövőben oda, hogy ez a gyakorlati számítások során is kezelhető problémává válik. Ennek megfelelően a matematikai eszköztár terén is eltolódás várható: a matematikai analízist és a klasszikus valószínűségszámítást alighanem felváltja (vagy legalábbis az eddigieknél jobban kiegészíti) az algebra és egy valamiféle új alapokon álló valószínűségszámítás. (Ez utóbbi azért meglehetősen futurisztikus elképzelés.) A digitalizáció mellett nagyon fontos szerep jut a másodlagos felhasználáson alapuló módszereknek. A meglévő minta információinak jobb kifacsarása már az 1950-es években elkezdődött (Mahalanobis), de azóta is folytatódik, sőt egyre terjed (jackknife, bootstrap, permutációs tesztek stb.). Ezek az eljárások jól beleilleszkednek a korábban említett tendenciákba. Itt kell megemlíteni – bár talán nem egészen ide tartozik –, hogy a technika fejlődése nem csupán a számítási lehetőségek kiterjedését, hanem a kommunikációs lehetőségek gyors szélesedését is jelenti. Ezért gondolom, hogy itt kell említeni a metaanalízis témakörét, ami lényegileg azt jelenti, hogy többé-kevésbé standardizált modellszerkezetek mellett az egymástól földrajzilag távol álló kutatók és modellezők összevethetik egymás eredményeit, mások adataival, feltételezésével együtt tudják sajátjukat jelezni, és így valójában mintájukat tudják növelni, egymás eredményeit felhasználva tudnak a korábbiaknál jóval általánosabb és hihetőbb megállapításokat tenni. Ez a metaanalízis tudomásom szerint ma leginkább az orvostudományban alkalmazott statisztikában kap helyet, de alapgondolata kiterjeszthető, és nyilván ki is fogják terjeszteni. A globalizáció erre jó terepet ad.
Amennyiben a matematika mellett a számítástudomány egyre erősebben benyomul a statisztikába, annak hatása egyebek közt az lesz, hogy a többnyire csak korlátozott érvényű, igaz, matematikailag bizonyítható és bizonyított állítások, zárt képletek, eljárások helyett ezekkel egyenértékű, vagy éppen csak közelítőleg egyenértékű, ám számítógépeken jól használható, gyors és kényelmes algoritmusok fejlődnek. Ma már se szeri, se száma az ilyen algoritmusoknak. Nem célunk ezekkel kiemelten foglalkozni, és egyáltalán nem törekedve a teljesség látszatára sem, említsük meg ezek közül a különféle szélsőérték számító algoritmusokat, az EM algoritmust, az bayesi elemzés posteriorjának kiértékelését szolgáló MCMC eljárásokat, a gyors Fourier-algoritmust, vagy éppen a wavelet elemzés piramis algoritmusát. Ezek – és még sok más hasonló algoritmus – kiegészítik, sőt egyre gyakrabban kiváltják a hagyományos formulákat, ugyanakkor megteremtik a lehetőséget arra, hogy korábban el sem képzelhető számításokat és elemzéseket végezzünk kényelmesen és rövid időn belül. Még egy megjegyzés a számítástechnikai eszközökkel kapcsolatban ide tartozik. Amióta megjelentek az egyre nagyobb és egyre gyorsabb személyi számítógépek, fokozatosan és rohamosan fejlődnek természetesen a szoftverek (statisztikai szoftverek) is. A korábban megjelent, és sok területen használt általános statisztikai szoftverek (BMDP, SPSS, Statistica, EViews stb.) mellett természetesen jelen voltak és vannak az általános, magas szintű programnyelvek (ALGOL, FORTRAN, BASIC) is. Manapság – és alighanem ez a jövő útja – teret kapnak az olyan, magas szintű nyelvek, amelyek elsősorban statisztikára vannak kihegyezve, és amelyek közösségi jellegűek. Ezen azt kell érteni, hogy a felhasználók az ingyenesen hozzáférhető alapcsomag segítségével tetszés szerinti rugalmassággal készíthetnek el statisztikai eljárásokat, amelyek – ha igény van rá – kellő szakmai ellenőrzés mellett bekerülnek egy központi könyvtárba, ahol azok bárki számára hozzáférhetők. Ilyen program manapság a statisztika területén az R. Várható, hogy ez a közösségi irányzat kellő szakmai ellenőrzés mellett, megfelelő keresőrendszerrel kombinálva a jövő statisztikájának egyik fontos útja lehet, hiszen már ma is ellenőrzött alrendszerek ezrei állnak ingyen a statisztikusok rendelkezésére, ráadásul bárki hozzáférhet az alapprogramhoz, és ennek segítségével tetszés szerint alakíthatja a saját munkáját.
4. Közlés
A közlés címszó alatt adatok, információk, valamint statisztikai elemzések közlését értjük. Az adatok közlése már most erősen változóban van: a KSH (és egyéb adatgyűjtő és -közlő szervek) csak kisebb részben használja a papíralapú közlést, nagyobb részt elektronikusan hozzáférhetők a statisztikai adatok. Ez valószínűleg a jövőben még inkább erősödni fog, és várhatóan abba az irányba megy tovább, hogy határozott kérés esetén az adatközlő olyan adatokat és olyan információkat olyan csoportosításban és elrendezésben ad át a feldolgozónak, amit és ahogyan az kéri. Az összeállításban az adatközlő szakértelmét és többletmunkáját is nyilván megfelelően díjazzák.
Változnak, és alighanem tovább fognak változni az eredményközlés formái, módszerei. Amennyiben megmaradnak a hagyományos (papíralapú) folyóiratok (de ha nem, akkor is), alighanem a statisztikai eredményközlés lényegesen változik. Természetesen az eredmények szöveges leírását ez nem érinti, de bemutatását, ábrázolását annál inkább. Néhány éve a Statisztikai Szemle hasábjain részletesen foglalkoztam az ábrázolás kérdéseivel: milyen elemzés milyen ábrát igényel, hogyan kell olyan ábrákat készíteni, amelyek valóban és korrekt módon ábrázolják az elemzett jelenséget, az elemzés fontosabb eredményeit [Hunyadi, 2002]. Ehhez képest elsősorban az utóbbi években sokat változtak, fejlődtek (?) a vizualizációs technikák. Egyfelől úgy tűnik, a statisztikai publikációk egyre inkább szakítanak azzal a koncepcióval, hogy egy ábra egy jelenséget mutasson be, és egyre gyakrabban látni, hogy különféle technikákkal egy ábrában két, de olykor több statisztikai jelenséget is igyekeznek bemutatni. Másfelől megjelentek és egyre inkább elterjednek azok az ábrák, amelyek különféle, szövegelemzéssel kapcsolatos jelenségeket, a leggyakrabban előforduló szövegeket mutatnak be. Más, ezekhez hasonló ábrák is terjednek, amelyek a különböző színeket és formákkal próbálják meg elérni a jobb vizualizációt. Ilyen ábrákra jó példák találhatók Kruzslicz és társai művében [2015], de nyilvánvaló, hogy ez ezen a téren még csak a kezdet.
Ami a szöveges elemzést és értékelést illeti, természetesen ott is változnak a formák, bár talán nem olyan látványosan, mint az ábrázolás terén. Ami bizonyos, egyre inkább eltolódik a szöveges elemzés közlése az elektronikus formák felé. Természetesen érthető, hogy ezek a formák lényegesen kényelmesebbek, olcsóbbak, jobban hozzáférhetők, hiszen egy blogot bárki bármikor tud készíteni, terjeszteni. Azt mondhatjuk, hogy a közlés gyorsabb, olcsóbb, demokratikusabb módja ez, mint a hagyományos papíralapú publikációk, ráadásul sokkal egyszerűbben és gyorsabban lehet elérni velük a célközönséget. Hasonlóképp értékelhetők az e-bookok is, amint azt a számos jó példa is igazolja. Hozzá lehet még tenni azt is, hogy bizonyos programok alkalmasak arra, hogy egy teljes kutatási anyagot, akár egy egész könyvet olyan formában (például R környezetben) lehessen közreadni, hogy abban a szöveges rész, az ábrák, a képletek, a feladatok stb. integráltan jelenjenek meg. Ezeknek a formáknak az elterjedésével a jövőben számolni kell, és bár előnyeiket aligha kell sorolni, egy dologról nem szabad megfeledkezni: a szakirodalom (statisztikában is, és természetesen már területen is) igényli a komoly szakmai kontrolt. Ezekkel a publikációs formákkal ez megkerülhető, alighanem sokan meg is kerülik, ugyanakkor a szakma felelőssége az, hogy a publikációs lehetőségek átalakulása és bővülése ne jelentse a színvonal romlását!
5. Szervezeti és szervezési kérdések
A statisztika várható átalakulásával óhatatlanul együtt járnak szervezeti változások. Astatisztikai hivatalok szerepe lényegesenmegváltozik. Várható, hogy a nemzetközi szervezetek (például EUROSTAT) szerepe felértékelődik, hiszen az adatgyűjtés, továbbá az elemzések technikájának, módszertanának fejlődése is egyre inkább globalizálódik. Így a regionális statisztikai hivatalok (köztük természetesen a KSH is) elsősorban nem adatgyűjtő, hanem adatgyűjtést szervező, közvetítő, kérdésfeltevő, elemző központok leszek. Ugyanakkor persze kellenek központosított informatikai műhelyek (mint most az R-központ), és alighanem erősödik a társadalom- és gazdaságelemző központok szerepe.
Nagy kérdés persze, hogy ez az új statisztika hol, mikor és hogyan egységesedik, tisztul le, kialakul-e egyáltalán olyan egységes rendszer, mint a mai standard statisztika, vagy egy folyamatosan alakuló kotyvalék lesz, igazi vezérfonalak nélkül? Ezekre a kérdésekre most még természetesen hozzávetőlegesen sem tudjuk a választ, de úgy gondolom, folyamatosan keresni kell, hiszen az egész statisztikai társadalom érdeke az, hogy az igazodás az új elvekhez, módszerekhez ne sokkszerűen, hanem folyamatosan, tudatosan történjék meg.
6. A statisztika oktatása
A végső kérdés, amiből voltaképpen kiindultunk: ebben a helyzetben, ilyen átalakuló világban mit kellene statisztika címen oktatni? A kérdést megválaszolni aligha tudom, hiszen éppen ezért kellene ezekről a kérdésekről széleskörű vitát folytatni a szakmán belül. A fentiek alapján az oktatás egy-két elemét talán meg lehet mondani. Az alábbiakban ezeket szeretném összefoglalni.
Oktatni kell mindenekelőtttovábbra is a leíró statisztikát, de figyelembe véve a fentieket, újabb korszerű felfogásban. Itt elsősorban arra gondolok, hogy fel kell térképezni a különböző szakmák statisztikája alapján azokat a mutatókat, amelyek máshol is hasznosíthatók, és el kellene kezdeni azok „meghonosítását” a mi szakmánkban.
Szerintem nagy kérdés az induktív statisztika oktatása. Az adatszerzési módok (mintavétel) fent vázolt drasztikus megváltozása ugyanis alapvetően megváltoztatja a következtetéselméletet. Ezért talán egy kicsit elmélettörténeti szemléletben és röviden kellene foglalkozni az induktív statisztikával. Ennek a vége az lehetne, hogy elsősorban mindig és mindenütt érvényes alapelveket fogalmazzunk meg. Azt gondolom, hogy egy sor matematikai állítás szükséges, de bizonyításuk helyett fordítsunk figyelmet inkább az interpretációra. Arra gondolok, hogy például a különféle határátmenetek és határértéktételek bizonyítása helyett egyszerű, de szemléletes programokkal mutassuk be a végtelent. Ha belátjuk, hogy már néhány száz, vagy néhány ezres nagyságú mintán érvényesülnek a határértékre tett állítások, az sokak számára meggyőzőbb lehet, mint egy-egy bizonyítás. (Természetesen a profi elméleti statisztikusoknak a bizonyításokkal is tisztában kell lenniük.)[1]
Feltétlen oktassuk a fent említett korszerű, terjedő módszereket. Sajnos azokat még nemfoglalták össze, de esetenként ki sem dolgozták, csak legfeljebb részben. Ezért ez látszik a kritikus területnek, így indulásnak csak röviden lehetne bevezető jelleggel szólni az alapokról. Szintén mesélni lehetne a big data-ról, a fuzzy halmazokról,a bayesi statisztikáról és így tovább. Esetleg lehet példákat keresni/találni.
Kulcsfontosságú lehet az informatika (értsd statisztikai informatika) oktatása, legalább Excel és R használatával. Az persze kérdés, hogy ennek mekkora része történik valamilyen informatikai, számítástechnikai tárgy keretében és mennyi a statisztikában. A tapasztalat az, hogy az Excel még talán, de például a statisztikára szakosodó R már aligha lehet egy általános tárgy oktatásának célja. Ezért számítani kell arra, hogy az R-et (vagy esetleg valami más szaktárgyat) a statisztikán belül oktassák. Erre fel kellene készülni, akár a különböző egyetemek statisztikai intézményeinek (tanszékeinek, intézeteinek) együttműködésével. Szerintem – ismerve a hallgatók nyitottságát az informatikai tárgyak iránt – az alapokat könnyen és gyorsan el lehet sajátítani, közös összefogással (?) pedig nagyon hamar lehetne egy mindenütt (mondjuk alapszakon) használható, de tetszés szerint bővíthető alap-statisztikai R csomagot összeállítani.
Oktassunk statisztikai modellezést nyitott szellemben! Eddig az alapstatisztika nem vált el a statisztikai modellezéstől (regresszió, többváltozós modellek, idősormodellek stb.). Az igazság az, hogy nem is könnyű a határ kijelölése. Nyilván nem lesz meg a lehetőség a következőkben sem erre (mármint arra, hogy modellezés címen több statisztika legyen a tanrendekben), de azért meg kell kísérelni.
Szerintem ezeket a kérdéseket nekünk, a mi korosztályunknak legfeljebb felvetni kell, a megoldásuk már nem a mi feladatunk. Pedig szép feladat lenne egy új statisztika alapjainak kidolgozása.
Felhasznált irodalom:
Hunyadi L.(2002): Grafikus ábrázolás a statisztikában. Statisztikai Szemle, 80. évf. 1. szám, 22-52 old.
Hunyadi L. (2011): Bayesi gondolkodás a statisztikában. Statisztikai Szemle,89. évf. 10-11.szám, 1150-1171 old.
Kehl D.–Várpalotai V.(2012): A modern bayesi elemzések eszköztára és alkalmazása. Statisztikai Szemle, 91. évf. 10. szám, 971 – 992 old.
Kruzslicz F.-Kovács B.-Hornyák M.(2015): Összehasonlító klaszterjellemzés külső, szöveges források bevonásával. Statisztikai Szemle, 94. évf. 11-12. szám, 1124-1148 old.
Novák, V.–Perfilieva, I.–Dvorak, A. (2016): Betekintés a fuzzy modellezésbe. (Insight into Fuzzy Modeling.) Wiley, Hoboken.
Pintér M.(2020): Ismerkedés a pontatlan valószínűség fogalmával, Szigma, LI. évf. 4. szám, 401-413 old.
Várpalotai V. (2008): Modern bayesi ökonometriai elemzések. Simasági priorok alkalmazása az üzleti ciklusok szinkronizációjának mérésére és az infláció előrejelzésére. PhD-értekezés. Budapesti Corvinus Egyetem, Budapest.
wikipedia.hu
[1] Erre készítettem egy kis összeállítást R programokkal a statisztikában előforduló fontosabb határátmenetről. Ezt egyelőre sehol sem akarom népszerűsíteni, de ha valakit érdekel, szívesen megmutatom, illetve megküldöm, hiszen ilyesmiben gondolkodom.