Spoľahlivosť vedeckých výskumov a „kríza vedy“
20.07.2018-20:15:00   |   Sledujte autora na FB   -   Dušan Valent
#Veda
#Zbúrané mýty
Viedlo k nej rospoznanie rôznych nedostatkov. Niekedy sa dokonca začalo hovoriť o kríze. Či už vedy ako takej, alebo konkrétne kríze replikovateľnosti vedeckých výskumov – čiže nezávislého potvrdenia štúdií neskoršími výskumami.

Naratív „veda je v kríze“ pozornosť médií už rozhodne získal. Dokonca aj odborných vedeckých časopisov. Osvojila si ho podľa všetkého aj nemalá časť odbornej verejnosti. Naznačuje* to nedávny prieskum zverejnený vo vedeckom časopise Nature. Deväťdesiat percent zúčastnených vedcov sa vyjadrilo, že vo vede panuje „mierna“ alebo „závažná kríza“. A 40, respektíve 70 % súhlasilo s tvrdením, že selektívne publikovanie výsledkov, podvody a tlak publikovať čo najviac „vždy“, respektíve „často“ vedú k výsledkom, ktoré sa neskoršie nepodarí replikovať (potvrdiť) ďalšími výskumami.



Sú však tieto dojmy opodstatnené?

„Tento naratív je prinajmenšom čiastočne chybný,“ upozorňuje Daniele Fanelliová z katedry metodológie vedy na London School of Economics and Political Science.

Nedávne metaštúdie (štúdie štúdií) podľa nej zodpovedali otázniky týkajúce sa integrity a replikovateľnosti časti výskumnej literatúry v celkom inom svetle: „V prvom rade [tieto problémy] neskresľujú väčšinu výskumnej literatúry vo vede ako takej, ani v jednotlivých vedeckých disciplínach. V druhom rade sa tieto problémy v jednotlivých disciplínach vyskytujú nerovnomerne, čo naznačuje, že zovšeobecnenia na vedu ako takú sú neoprávnené. V treťom rade sa závažnosť týchto problémov časom neprehlbuje.“

Odborníčka špecializovaná na výskum podvodov a skreslení vo vede preto považuje tvrdenie, že „veda je v kríze“, za nepodložené.

Reprodukovateľnost

Aký závažný je problém replikovateľnosti vedeckých výskumov? Podobne ako v prípade mnohých iných veľkých otáznikov vedy nemá jednoduchú, a v tomto prípade ani celkom jednoznačnú, odpoveď.

Medzi priekopníkov výskumu spoľahlivosti medicínskych výskumov patrí profesor medicíny a štatistiky John Ioannidis. V roku 2005 napríklad skúmal vysoko citované štúdie trojice najprestížnejších medicínskych časopisov zverejnené v rokoch 1990-2003. Zo 49, ktoré prekročili hranicu tisíc citácií, 45 prinieslo tvrdenie o účinnosti niektorého medicínskeho zásahu. Z toho sedem štúdií ďalšie výskumy vyvrátili, pri ďalších siedmich pre zmenu zistili nadhodnotenie účinku. Potvrdiť sa podarilo 20. V prípade 11 sa v čase písania Ioannidisovej práce neuskutočnil ani jeden pokus o replikovanie.



Ioannidis teda zistil, že závery 40 % mimoriadne citovaných medicínskych výskumov sa čiastočne alebo úplne nepotvrdili.

Podobné zistenia, ale v inom odbore - psychológii, priniesla iniciatíva Open Science Collaboration. Overovala 100 štúdií a zistila replikovateľnosť nižšiu ako 50 %. Jej miera však podľa autorov výskumu výrazne kolísala medzi jednotlivými odvetviami psychológie a silne závisela od použitej metodiky a odbornosti autorov replikácie.

Krátko po zverejnení výskumu psychológ Daniel T. Gilbert s kolegami upozornil, že autori sa dopustili troch štatistických chýb. Po ich zohľadnení z dát vyplýval presne opačný záver, teda nie nízka, ale vysoká replikovateľnosť psychologických výskumov. Rovnaký záver priniesla opätovná analýza dát iniciatívy Open Science Collaboration trojicou bioštatistikov z Univerzity J. Hopkinsa. Výskumníci zistili, že pôvodne zistenú veľkost účinku sa podarilo potvrdiť až v 77 % prípadov (oproti pôvodne proklamovaným 47 % v štúdii Open Science Collaboration).

Núka sa ironická poznámka, že štúdia spochybňujúca replikovateľnosť psychologických výskumov sama nebola úspešne replikovaná.

Aj mnohé ďalšie výskumy prinášajú výsledky ukazujúce, že hoci existujú problémy, z ktorých vyplýva obozretnosť pri interpretácii výskumnej literatúry, v skutočnosti nemáme dočinenia so žiadnou krízou replikovateľnosti vedeckých výskumov.

Napríklad v rámci iniciatívy Many Labs 36 nezávislých výskumných tímov overovalo výsledky 13 „slávnych“ psychologických štúdií. V takmer šiestich stovkách replikačných štúdií sa darilo opakovane a konzistentne potvrdiť výsledky približne troch štvrtín (10) z nich. Iná analýza, zameraná na experimentálnu ekonómiu, zistila úspešné replikovanie prinajmenšom 11 z 18 štúdii (v závislosti od faktorov, ktoré autori brali do úvahy, sa podarilo potvrdiť až 78 % štúdií).

Ďalším dôvodom na optimizmus je „čierna ovca psychológie“ (čo sa replikovateľnosti týka), sociálna psychológia, ktorá si v hodnotení reprodukovateľnosti výskumov v posledných rokoch pomerne výrazne polepšila.

Replikovanie je veľmi, veľmi náročné
Čo je príčinou, že výskumy zisťujú odlišnú (vysokú verzus nízku) mieru replikovateľnosti vedeckých štúdií? Ako vo svojich prácach konštatujú autori viacerých vyššie citovaných prác, ukazuje sa, že definícia toho, čo znamená „replikovať“ a „replikovateľnosť“ nie je celkom jednoznačná. „Intuitívne očakávania výskumníkov sa nie vždy zhodujú s tým, čo za replikáciu považujú štatistické postupy,“ upozornil bioštatistik Prasad Patil s kolegami.



Ďalším faktorom je skutočnosť, že v niektorých odboroch rozhoduje o úspechu alebo neúspechu replikácie obrovské množstvo drobných vplyvov. Poukazujú na to napríklad výsledky projektu Reproducibility Project: Cancer Biology, v rámci ktorého sa výskumníci pokúsili replikovať najcitovanejšie štúdie vo výskume rakoviny z rokov 2010 až 2012. Svoje výsledky zverejnili v piatich štúdiách v časopise ELife. „Overovatelia“ napríklad zistili, aké mimoriadne dôležité bolo plánovaný postup konzultovať s autormi overovanej štúdie, aby takto získali aj nezverejnené informácie o postupe pokusov. „Niekedy sme zistili, že sme plánovali vykonať nesprávny experiment, a tak sme ho museli celý prepracovať,“ uviedol Tim Errington.

Výsledok overovaní napriek tomu vyznie na prvý pohľad katastroficky - ani v jednom z piatich pokusov sa nepodarilo jednoznačne potvrdiť výsledky pôvodných výskumov (Errington s kolegami dva výskumy replikoval čiastočne, jeden vôbec a dve replikácie nebolo možné interpretovať kvôli technickým problémom). Podľa Erringtona to ale neznamená, že overované štúdie boli chybné: k odlišnému výsledku viedli také nepatrné zmeny ako odlišná teplota v laboratóriu.

S nemalými prekážkami zápasia aj psychológovia overujúci výskumy iných vedeckých tímov vo svojom vlastnom laboratóriu: často musia prekonávať jazykové a kultúrne odlišnosti v porovnaní s pôvodnými experimentmi.

Pointa je, že replikovanie výskumov je prinajmenšom v niektorých odboroch mimoriadne náročné a nemusí sa podariť ani pri maximálnej dôslednosti ako na strane pôvodných výskumníkov, tak na strane tých overujúcich. Ak sa teda nepodarí replikovať niektorý výskum, nemusí to nevyhnutne znamenať, že je chybný.

„Je možné, že výsledok pôvodnej štúdie bol falošne pozitívny,“ konštatuje Tim Errington. „Alebo výsledky replikácie sú falošne negatívne. Prípadne mohlo počas replikácie dôjsť k nejakej chybe, takže je správna aj pôvodná štúdia, aj replikácia. Len nevieme, čo presne spôsobilo nesúlad výsledkov.“


-


Názorná ilustrácia falošne pozitívneho (muž sa dozvedá, že je údajne tehotný) a falošne negatívneho tvrdenia (žena v deviatom mesiaci sa dozvedá, že údajne nie je tehotná).


„Niektoré výsledky možno reprodukovať jednoducho, iné len za veľmi špecifických podmienok. A ďalšie nemusia byť reprodukovateľné vôbec. Ukazuje sa, že posledné dve zmienené kategórie môžu byť veľmi časté,“ konštatuje John Ioannidis.

Dôležité je, že jedna nepodarená replikácia nie je o nič viac definitívna, než jediná štúdia, ktorá tvrdí, že sa jej podaril nejaký objav.



Chyby a nekalé praktiky


Ak napríklad v medicíne skúmate možný vplyv nejakého faktora dostatočne veľkým počtom experimentov, veľká väčšina síce žiaden nepreukáže, ale kvôli „štatistickému šumu“ hŕstka áno. Hovoríme tomu falošne pozitívne zistenie. (Platí to aj naopak, pri existencii nejakého vplyvu malá časť výskumov žiaden nezistí – v tomto prípade pôjde o falošne negatívny výsledok.) Keďže pozitívne zistenia, napríklad zistenie nejakého vplyvu či účinku, majú vyššiu šancu na zverejnenie (jav známy ako tzv. publikačné skreslenie), výskyt falošne pozitívnych výsledkov sa považuje za jeden z hlavných problémov medicínskych ale aj psychologických štúdií.

Aké časté sú falošne pozitívne zistenia? Analýza zameraná na medicínske štúdie z rokov 2000 až 2010 ich zistila v 14 % článkov. Pravda, išlo o pomerne prestížne časopisy. V tých menej kvalitných môže byť výskyt vyšší. Nejde o tragédiu – len dobrý dôvod, prečo sa pri vyvodzovaní záverov treba opierať o celkový obraz výskumnej literatúry, a nie jednotlivé štúdie.

Vo výskumnej práci môže dôjsť k rôznym chybám. Potešiteľné však je, že veľmi často sú takéto výskumné práce dodatočne opravené alebo stiahnuté. Nedávna, ešte len predbežne zverejnená štúdia, analyzujúca takmer tisícku biomedicínskych štúdií z rokov 2009 až 2016, napríklad našla 59 prípadov (6 %) nekorektného použitia ilustrácií. Z tohto počtu bolo až 42 štúdií dodatočne opravených a 5 anulovaných či stiahnutých (retracted). V dvanástich prípadoch predmetné časopisy z rôznych dôvodov nepodnikli žiaden krok, napríklad preto, že výskumné laboratóriá medzičasom zanikli. Autori uvedenej štúdie zároveň podotýkajú, že zistené nedostatky boli zväčša spôsobené neúmyselne. „Väčšina zo zistených prípadov duplikácie obrázkov bola spôsobená chybami počas prípravy obrazovej dokumentácie,“ píšu autori v práci.

Ďalším z problémov vedeckej literatúry sú podvody. Z anonymných prieskumov ale vyplýva, že len 1 až 2 % vedcov upravilo alebo vyfabrikovalo dáta svojich štúdií. Biológ Peter Both z University of Manchester upozorňuje, že vyfabrikovať falošné výsledky predstavuje pre kariéru vedca ohromné riziko: „Ak sa vo vedeckej komunite prevalí, že tvoje výsledky sú podvod, tak si vo vede skončil.“

Zriedkavý výskyt vedeckých podvodov ale neplatí celosvetovo, ako zistil nedávny prieskum čínskych medicínskych výskumov. Úrad pre reguláciu potravín a liečiv v koncoročnej správe uviedol, že viac ako 80 % čínskych klinických štúdií je „vyfabrikovaných“. Pamätajte na to, keď sa vám niekto bude snažiť obhájiť účinnosť akupunktúry zisteniami čínskych štúdií.

Medzi ďalšie nekalé praktiky patrí tzv. p-hacking, čiže zbieranie alebo selektovanie dát či štatistických analýz, dokiaľ autori nenarazia na výsledky, ktoré sú štatisticky významné. Jeho výskyt nedávno skúmal napríklad tím pod vedením Megan L. Headovej. „Hoci je p-hacking zrejme častý, jeho vplyv je v porovnaní s  meranou veľkosťou účinku podľa všetkého malý,“ konštatujú autori práce a dodávajú dôležitý dodatok: „Naše výsledky naznačujú, že p-hacking zrejme výrazne neovplyvňuje závery vedeckého konsenzu v rôznych oblastiach, keďže tieto závery vychádzajú z meta-analýz.



To isté, čo platí pre problém replikovateľnosti vedeckých štúdií, očividne možno aplikovať aj na problém chýb a nekalých postupov: áno, existujú problémy, ale tie rozhodne neznamenajú, že výskumná literatúra je nespoľahlivá. Znamenajú, že by sme mali byť obozretní pri interpretovaní výskumov, a rozlišovať výpovednú hodnotu rôznych štúdií - za spoľahlivejšie možno považovať veľké výskumy a meta-štúdie** analyzujúce dáta množstva menších výskumov. Menej spoľahlivé sú malé a pilotné výskumy alebo výskumy na bunkových kultúrach či hlodavcoch.

Kroky k náprave

Ako sme uviedli v úvode, veda – predovšetkým psychológia, medicína a niektoré odvetvia biológie - sa v súčasnosti transformuje do oveľa prísnejšej, rigoróznejšej podoby.

Vedecké časopisy začali vyžadovať dostupnosť všetkých informácií o metodike a dostupnosť všetkých dát. Vznikli weby umožňujúce registráciu štúdií pred začiatkom výskumu, čo zmierni vplyv tzv. publikačného skreslenia (štúdie, ktoré nepotvrdia nejaký vplyv/účinok majú nižšiu šancu, že budú publikované) a úložiská „surových“ dát. Vznikli tiež špecializované periodiká na zverejňovanie replikácií, pričom sa uskutočňuje čoraz viac iniciatív zameraných na replikovanie výskumov.

Vedecký časopis Social Psychological and Personality Science upozornil autorov, že výskumy vykonané na malej vzorke s veľkou pravdepodobnosťou zamietne. A časopis Basic and Applied Social Psychology deklaroval, že nebude zverejňovať výskumy, ktorých závery sú založené na štatistickej významnosti. K inému kroku minulý rok vyzval kolektív 72 štatistikov. Požaduje, aby sa desaťnásobne sprísnila hranica štatistickej významnosti (nie P< 0,05 ale P< 0,005). Tento krok podľa autorov zníži výskyt falošne pozitívnych výsledkov na „akceptovateľnú úroveň“.

V neposlednom rade sa Čína pustila do boja s katastrofálnou kvalitou svojej vedy. Bude postihovať výskumníkov zverejňujúcich výskumné práce v pochybných časopisoch a poverila ministerstvo vedy prešetrovaním podozrení z falšovania vedeckých výsledkov.

Záver

„Rastúci počet výskumov zameraných na spoľahlivosť vedeckých štúdií naznačuje, že hoci veda čelí mnohým novým aj starým výzvam, netrpí krízou replikovateľnosti“ konštatuje Daniele Fanelliová.

Britský lekár Ben Goldacre v knihe Skorumpovaná farmácia (slovenské vydanie v r. 2013) upozorňuje, že ak pôjdete priamo ku skutočným dôkazom a budete čítať systematické revízie založené na kvalitných výskumoch, potom sa všetky skreslenia a výmysly farmaceutického priemyslu a jeho spriaznených „bábok“ zmenia na márnotratný, irelevantný šum. „Všetky tieto triky dokáže prekonať ktorýkoľvek lekár,“ upozorňuje Brit.

Kathleen Hall Jamiesonová z University of Pensylvania ďalej pripomína, že jeden z argumentov v prospech krízy vo vede – vysoký počet štúdií, ktoré sú v posledných rokoch dodatočne anulované, respektíve z stiahnuté z vedeckých časopisov, v skutočnosti demonštruje fungovanie vnútorných opravných procesov vedy. Práve sebaopravné mechanizmy sú centrálnou vlastnosťou (a prednosťou) vedy.

Jamiesonová dodáva, že naratívy o „vede v kríze“ a „kríze replikovateľnosti“ nie sú len mylné, ale aj škodlivé: „Tieto chybné naratívy podporujú schopnosti záujmových skupín diskreditovať rôzne oblasti výskumu – okrem iného genetické inžinierstvo, očkovanie, výskum klimatickej zmeny – pokiaľ prinášajú zistenia, ktoré sú ideológiám týchto skupín nepríjemné.“

-

Tento článok sme Vám mohli priniesť vďaka podpore na Patreone. Aj symbolický príspevok nám pomôže zverejňovať viac kvalitných článkov.

Zdroje:

Za cenné pripomienky k textu autor ďakuje Petrovi Bothovi PhD z University of Manchester.

Poznámky
* Čo sa týka prieskumu v časopise Nature, jeho výpovedná hodnota bola spochybnená. Nešlo o náhodnú vzorku vedcov. Respondenti predstavovali čitateľov časopisu Nature a tých, ktorí sa rozhodli prieskumu zúčastniť na základe výzvy zverejnenej na stránkach časopisu a príbuzných weboch a na sociálnych sieťach. Výhrady sa objavili aj k formulovaniu otázok, ktoré podsúvali problematiku krízy vo vede.
** Ani meta-analýzy nie sú neomylné. Postihuje ich problém GIGO – garbage in, garbage out. Ak meta-analýzu nakŕmite pochybnými štúdiami, aj výsledky budú pochybné. Žiaľ, takéto štúdie niekedy nezastaví ani peer-review, ako v prípade nedávnej meta-analýzy účinku akupunktúry na chronickú zápchu. Ako upozornil biológ a vedecký publicista Ross Pomeroy, na jednej strane vzala zistenia prísnych štúdií účinku laxatíva, ktoré boli všetky dvojito zaslepené, randomizované, kontrolované placebom a zverejnené v recenzovaných časopisoch. Ich účinok porovnala so štúdiami akupunktúry, ktoré neboli zaslepené, všetky boli z Číny (kde, ako sme videli, panuje epidémia falšovania medicínskych výskumov), a všetky boli zverejnené v pochybných časopisoch. Nemožno sa potom čudovať, že takáto meta-analýza vykázala väčší účinok akupunktúry.
Páčia sa Vám naše články? Podporte nás

Zdieľajte článok






Za podporu ďakujeme

Pridať e-mail