Punkty za czasopisma to wisienka na spleśniałym torcie

W dyskusjach nad wadami obecnego systemu oceny parametrycznej, zwanej też „ewaluacją”, dyscyplin naukowych często zakłada się, że system ten został zepsuty przez liczne zmiany w punktacjach czasopism, wprowadzane przez ministra Przemysława Czarnka. Kuriozalne czasopismo, jakim jest „Pedagogika Katolicka”, otrzymuje już przecież maksimum punktów. Oczywiście, te zmiany dają nieuzasadnione przewagi autorom tekstów z takich pism – w tym kandydatom do stypendium ministra dla wybitnych młodych naukowców. Tymczasem te zmiany to wisienka na zupełnie spleśniałym torciku z robalami. Ten system nie został zepsuty. Był od razu źle wymyślony.

Skupię się tu przede wszystkim na publikacjach, ale wiele z tych problemów występuje też w przypadku kryterium II (granty i komercjalizacja) i III (wpływ społeczny).

Pomysł oparcia oceny badań na prostych wskaźnikach ma swoje zalety. Po pierwsze, wydaje się intersubiektywnie sprawdzalny, po drugie w miarę niezależny od subiektywnych opinii, a wreszcie – przecież wydawnictwa i czasopisma cieszą się często zasłużonym prestiżem. W dodatku przecież czasopisma chwalą się wskaźnikami cytowań. Samo w sobie nie wydaje się to więc zupełnie nonsensowne. Ba, ocena wyników badań w taki sposób ma w sobie pewien potencjał emancypacyjny: otóż nie liczy się, gdzie ktoś był wykształcony i gdzie pracuje, lecz gdzie i jak dużo publikuje. W ten sposób ocena oparta na publikacjach pozwala osobom na początku kariery naukowej zyskać pewną merytoryczną przewagę. Istotnie, zatrudnienie w nauce na całym świecie zależy przede wszystkim od prestiżu instytucji, z której się dana osoba wywodzi, ale dzięki wzrostowi wagi publikacji osoby ze znakomitymi publikacjami mogą przynajmniej zacząć konkurować z absolwentami Oksfordu. Bez oceny publikacji z kolei konkursy na zatrudnienie w nauce mogą być rozstrzygane dosyć arbitralnie – nawet tworzyć kliki.

Tak więc są powody, żeby uważać cechy publikacji za dobrze oddające wartość badań. A przynajmniej lepiej od oceny eksperckiej, która bywa chwiejna, stronnicza i nieprofesjonalna. A publikacje przecież są recenzowane.

Problem jednak w tym, że wcale nie jest tak łatwo. Zacznijmy od prostej sprawy – zobaczmy, kiedy pomiar jest poprawny.

Wymogi prawidłowego pomiaru

Prawidłowy pomiar musi być:

  •  precyzyjny (powtarzalny w czasie i odtwarzalny przez różne osoby),
  •  zbieżny (ten sam wynik uzyskiwany różnymi metodami),
  • trafny teoretycznie (musi mierzyć badaną własność).

Na pierwszy rzut oka może wydawać się, że wskaźniki typu „impact factor”, w skrócie IF, (firmy Clarivate) czy „SJR” (firmy Elsevier) mogłyby spełniać te wymogi. Warto od razu uświadomić sobie, że poziomy cytowań mają niedogodny do pomiaru średniej jakości naukowej rozkład: 80 procent cytowań przyciąga 20 procent artykułów, co sprawia, że słabo generalizują się na jakość całego czasopisma. Do tego, niestety, mimo że wyniki są odtwarzalne przez różne osoby (mające dostęp do tych komercyjnych baz danych), to niekoniecznie są powtarzalne w czasie, gdyż wskaźniki bywają korygowane. Załóżmy, że z powodu korekty błędów pomiaru (chociaż niekoniecznie, o czym za chwilę). Najciekawsze jest jednak to, że nie są zbieżne.

O braku zbieżności przekonaliśmy się łatwo jako członkowie komisji ds. ustalenia punktacji czasopism w dyscyplinie filozofia. Różne wskaźniki przypisywane czasopismom ze sobą nie korelują. A jest tak między innymi dlatego, że IF podlega daleko idącym negocjacjom z wydawcami czasopism, którzy decydują, co podlega zliczaniu. Zmiany mogą prowadzić do modyfikacji IF o jeden rząd wielkości. SJR z racji mniejszej istotności podlega mniejszym fluktuacjom. Czyli nie mamy pewności, co jest wynikiem poprawnym, chociaż zapewne SJR lepiej oddaje poziom cytowań.

Najgorzej jednak z trafnością teoretyczną. Cytowalność jest jak sława (stąd też ten osobliwy rozkład statystyczny). Sławą cieszą się nie rzeczy prawdziwe, tylko, no cóż, te, które są… sławne. To często samonapędzający się mechanizm. Wspierając IF, wspieramy celebrytyzm w nauce. Cytuje się nie tylko wyniki prawdziwe, bo się je ceni, ale też głupie. Wysoki poziom cytowań utrzymują też prace wycofane z czasopism – nawet po ich retrakcji. A wtedy już wiadomo, że nie są prawdziwe.

Gorzej, w czołowych czasopismach, takich jak „Science”, „Lancet” czy „Nature”, zauważono, że więcej cytowań mają prace nowe i oryginalne. A te są bardziej zaskakujące, czyli mniej prawdopodobne. I nic dziwnego, że IF wtedy koreluje z niskim prawdopodobieństwem – a więc z niskim poziomem replikacji.

W istocie więc te wskaźniki nie mierzą niczego więcej poza sławą. Wiadomo, że naukowcy pragną uznania – być może, jak chciałby Hegel, w tym przypadku po prostu są ludźmi, bo ludzie wedle niego z zasady pragną uznania i szacunku. Tylko że uznanie międzynarodowe mierzone cytowaniami to celebrytyzm.

Co ciekawe, monografie naukowe nie są mierzone tymi wskaźnikami – choćby dlatego, że wzrosty cytowań książek nie dają się mierzyć rzetelnie w tak krótkich okresach, jak w przypadku artykułów. Wielu wydawców w ogóle nie jest zainteresowanych liczeniem cytowań książek. A to znaczy, że mamy dużą grupę publikacji, których nie sposób ocenić w ten sposób. Do nich dochodzą też recenzowane materiały z konferencji międzynarodowych – istotne i naukowo najlepsze w informatyce, ale nie w innych dyscyplinach. Powstaje pytanie, jak to wszystko jednolicie uwzględnić w ocenie jednostek?

Mimo wszystko jednak publikacje rzeczywiście pozwalają osobom z mniej uprzywilejowanym startem (a z punktu widzenia nauki światowej, to wszyscy w Polsce mają słaby start) zyskać jakieś uznanie międzynarodowe. Tylko że nie tylko Polacy dostrzegli w tym szansę na wybicie się. Mnóstwo ośrodków naukowych aspiruje do lepszej pozycji w rankingach i szuka więcej lajków w rankingach uczelni (do tego to się w sumie sprowadza – metodologia tych rankingów, traktowanych śmiertelnie poważne w polityce i publicystyce, krzyczy o pomstę do nieba).

Efekt jest porażający: coraz trudniej publikować w tzw. prestiżowych czasopismach, nawet jeśli nie mają one żadnych wskaźników bibliometrycznych. Na przykład żeby zatrudnić się w filozofii na dobrej uczelni w świecie anglojęzycznym, trzeba mieć publikacje w ramach dziesiątki najbardziej cenionych czasopism. One zaś przyjmują czasem tylko 3% nadsyłanych artykułów i są tak przywalone falą tekstów, że jakość tych recenzji czasem jest porażająco niska. Nic dziwnego, to już loteria.

Jaki jest dalszy efekt? Ano efekciarstwo – coraz bardziej trzeba się starać, żeby mieć tekst w prestiżowym czasopiśmie, co pogłębia jeszcze bardziej presję na nieoczekiwane wyniki, które – podkreślę jeszcze raz – są mniej prawdopodobne, a więc przypuszczalnie fałszywe. I nie będą się replikować. Obieg czasopism naukowych, zastosowany do pomiaru jakości badań, zaczyna się wynaturzać – nie jest środkiem komunikacji, lecz sam zaburza komunikację. Dokładnie na takich samych zasadach jak walka o uwagę w mediach społecznościowych.

Nie ma nic za darmo – jeśli chcemy iść na skróty i tanio ocenić jakość naukową badań, to zapłacimy kryzysem nauki. System czasopism naukowych jest w głębokim kryzysie z punktu widzenia nauki, ale dla wydawców to złota kura, przynosząca coraz więcej zysków (np. miliard dolarów rocznie w przypadku Elseviera).

Jednym z rozwiązań tego problemu jest zmiana polityki redakcji czasopism i publikowanie tylko artykułów o wysokiej jakości naukowej, bez oceniania, jak bardzo są przyczynkarskie i nienowatorskie – te oceny zresztą są nadzwyczaj wątpliwe, o czym świadczy casus tegorocznej laureatki Nagrody Nobla, Katalin Karikó, której artykuł odrzucono z „Nature” bez recenzji (jak większość artykułów – to czasopismo recenzuje tylko niewielką część nadsyłanych artykułów, większość odrzuca wedle widzimisię redaktorów). Inną politykę mają nowe czasopisma takie jak „PLoS” czy „eLife”. W „eLife” posunięto się o krok dalej – publikuje się wszystko, co przejdzie przez sito redaktorów (znowu tu, niestety, jest widzimisię), a recenzje zamawia się po publikacji. Gdyby więcej czasopism tak postąpiło, to moglibyśmy powstrzymać degenerację komunikacji naukowej – a jednocześnie nastąpiłby krach wskaźników bibliometrycznych.

Większość jednak idzie drogą wyznaczoną przez MDPI – przyjmować jak najwięcej tekstów, zmniejszyć selektywność, robić miliony numerów specjalnych, podnieść wskaźniki. Elsevier i Wiley postępują tak samo, o czym świadczą niedawne protesty redakcji „NeuroImage” (w całości odeszli w proteście przed presją wydawcy na wydawanie jak najwięcej tekstów).

Tu uwaga na marginesie: sam zgodziłem się wejść do rady redakcyjnej pisma „Philosophies” (bodaj 20 punktów ministerialnych” wydawanego przez MDPI, które miało właśnie odrzucić błędną politykę nacisku na niejasno rozumianą oryginalność i nowość, lecz skupiać się na jakości merytorycznej. Kilkakrotne odrzuciłem słabe teksty – i nie ukazały się one w tej formie. Potem jednak zaczęły wracać (lecz nie ma moje biurko), a MDPI coraz bardziej stawiało na numery specjalne i obłędnie szukało metod podwyższania wskaźników. Wyraźnie ostrzegałem, że to błędna polityka. Mój głos – i kilku moich koleżanek i kolegów – zignorowano, w efekcie czego rok temu zrezygnowaliśmy z udziału w tej redakcji.

Dyscyplinowanie naukowców

Jakby tego było mało, to sława zależy, oczywiście, od wielkości dyscypliny. Reforma ministra Gowina opiera się na absurdalnej – z punktu widzenia filozofii nauki – idei, że istnieją realne podziały między dyscyplinami naukowymi. Tymczasem dyscypliny to czysto konwencjonalne i biurokratyczne kategorie, które w Polsce są tak ogólne, że zacierają różnice metodologiczne czy teoretyczne między naprawdę zróżnicowanymi tradycjami badawczymi. Filozof biologii często więcej ma wspólnego z biologami niż z historykiem filozofii średniowiecznej. Logik prędzej dogada się z matematykiem niż ze znawcą współczesnej filozofii francuskiej. W dodatku w różnych tradycjach badawczych panują inne zasady cytowania źródeł. Podręczniki psychologii wszystkie powołują się na źródła i literaturę przedmiotu, podręczniki logiki – praktycznie nigdy tego nie czynią. To samo występuje w czasopismach – w „Synthese”, jednym z bardziej znanych pism filozoficznych, recenzent regularnie dostaje pytanie w ankiecie dołączonej do recenzji opisowej, czy wszystkie cytowania są niezbędne i czy nie można skrócić bibliografii. Rzecz nie do pomyślenia w czasopismach psychologicznych.

Tylko że wskaźniki bibliometryczne liczy się wszędzie tak samo – i wtedy okazuje się, że filozofia nauki jest z zasady lepsza od historii filozofii niemieckiej, bo jest bardziej popularna, a one wszystkie są mniej naukowo istotne od badań w naukach o zdrowiu. A skoro punkty są porównywane między dyscyplinami, to w czym problem?

Ano problem w tym, że w ramach tej samej tzw. dyscypliny są różne zwyczaje cytowania i różne poziomy cytowań. To jednak wierzchołek góry lodowej. Najważniejsze jest to, że dyscypliny są tworami urojonymi – to znaczy również, że w praktyce nie da się im niearbitralnie przypisać czasopism. Są, oczywiście, klasyfikacje dziedzinowe w bazach danych, ale te klasyfikacje nie są czymś, czym przejmowałaby się jakakolwiek redakcja czasopisma naukowego. Sam się kiedyś zdziwiłem, że „European Journal for Philosophy of Science”, gdzie jestem od lat redaktorem, ma klasyfikację „filozofia i historia nauki”, ale nie „filozofia”. Bądź tu mądry! Co więcej, wiele czasopism ma klasyfikatory z wielu dziedzin.

I cały chytry pomysł reformatorów, by przypisać czasopisma do dyscyplin, staje się podejrzany, skoro jednak są czasopisma przypisane do kilkudziesięciu, w których panują zupełnie inne zwyczaje i standardy cytowania.

Nie dość, że mierzymy sławę, to jeszcze wedle różnych standardów… Co mogłoby pójść nie tak?

Nikt tego jeszcze porządnie nie zbadał, ale prawdopodobnie jednym z efektów reformy jest zamknięcie dyscyplinarne i wybieranie czasopism „dyscyplinowych”, bo naukowcy zaczęli się bać odrzucania osiągnięć na podstawie niezgodności z deklarowaną dyscypliną. W praktyce okazało się to rzadsze, niż oczekiwano, ale się regularnie zdarzało. Mówię to z perspektywy dyscypliny, gdzie odrzucono wielokrotnie więcej osiągnięć niż gdziekolwiek indziej – eksperci w filozofii okazali się wyjątkowo gorliwi w kwestionowaniu dorobku. W prawie kanonicznym nie odrzucono nic, ale nie powinno to dziwić – do tej dyscypliny przypisano prawie wszystkie czasopisma świata.

Ekspercka poprawka

Reformatorzy zauważyli te osobliwości i pod presją środowiska naukowego minister Gowin powołał komisje specjalistów, którzy mieli ustalić punktacje w poszczególnych dyscyplinach i ustalić listę czasopism dla danej dyscypliny. Sam wszedłem do komisji ds. czasopism w filozofii. Dostaliśmy na to miesiąc. Potem sprawą miał zajmować się KEN, ale sprawy w swoje ręce wziął minister Czarnek – z wiadomym efektem. Sam pomysł, że KEN ma z powodzeniem zastąpić kilkadziesiąt komisji złożonych z kilkunastu osób, zasługuje jednak na medal z ziemniaka.

W niektórych dyscyplinach do przejrzenia było kilka, a nawet kilkanaście tysięcy tytułów. Przypisania okazały się też nader hojne – początkowo listy dostaliśmy zupełnie błędne, co skróciło jeszcze bardziej czas możliwości naszego działania. I do dzisiaj nie wiem, czemu miał służyć ten pośpiech – chyba tylko temu, żebyśmy już ministerstwu głowy nie zawracali. Ministerstwo też uprzejmie poprosiło o utylizację wszystkich danych, które dostaliśmy, bo wszystkie procesy ustalania punktów miały być ściśle tajne. Diabeł jeden wie dlaczego.

Trzeba jednak przyznać, że wprowadzenie etapu oceny eksperckiej było istotnym ulepszeniem. wskaźniki bibliometryczne zostały wybrane przez ekspertów dla poszczególnych dyscyplin, a potem punkty mogły być w pewnych granicach przesuwane. Na przykład zauważyliśmy w komisji, że czasopisma z historii filozofii są mniej cytowane od czasopism z filozofii nauki. Nic dziwnego, w nauce nie cytuje się prac historycznych o Kancie. Są one cytowane częściej w monografiach, które nie podlegają najczęściej rzetelnemu indeksowaniu przez komercyjne firmy. Postaraliśmy się jednak, aby wszystkie poddyscypliny filozofii miały najbardziej prestiżowe czasopisma w gronie najwyżej punktowanych, mimo różnic w poziomach cytowań. Te poziomy wynikają jednak z różnych praktyk cytowania w różnych dyscyplinach.

Sęk w tym, że inne komisje nie musiały tak robić – i powstał metodologiczny bałagan, który pozostaje tym bardziej dotkliwy, że niektóre komisje wcale nie godziły łatwo na skreślanie czasopism przypisanych do nich z niewiadomych powodów (np. do dzisiaj nie wiem, jakim cudem do nauk o zdrowiu przypisano pismo filozoficzne „Minds and Machines”, przez co znacznie obniżyła się mu punktacja na tle ogromnych wskaźników w dziedzinach biomedycznych).

Początkowe listy jednak były na pewno lepsze – i gdyby utrzymano stałe komisje, monitorujące rozwój wydarzeń, może część patologii z czasopismami wysoko punktowanymi, a łatwo dostępnymi (za opłatą) zostałaby usunięta. Tylko że istnienie słabych czasopism z dużymi punktami było opłacalne dla tych wszystkich, którzy drukowali tysiące artykułów w wydawnictwie MDPI. Wg prof. Przemysława Hensla, który opracował dokładne statystyki tych polskich publikacji w MDPI, wydano prawdopodobnie na to ok. 274 milionów złotych.

Komisje ds. czasopism nie miały jednak wpływu na powstanie wykazu wydawnictw. Żeby było śmieszniej, wydawnictwa nie zostały przypisane do dyscyplin, chociaż w Brillu nie drukuje się dobrych monografii z logiki – najlepsze są w Springerze. Tu wprowadzono tylko dwie kategorie, przez co najlepsza monografia z logiki dostaje tyle punktów, co książka wydana przez moje instytutowe wydawnictwo. A ktoś, kto opublikuje monografię po niemiecku w  Suhrkamp Verlag (wydawca np. Jurgena Habermasa), dostanie tyle punktów, ile za druk cyfrowy wykonany na własne zamówienie. Ponownie – wszystko jest tutaj utajnione przez ministerstwo, ale wykaz od początku był dziwaczny. 

Tymczasem niektóre dyscypliny, np. historia, opierają się głównie na monografiach. Powstały więc specjalne polskie serie wydawnicze, które pozwalają zbierać punkty polskim autorom. To jest efekt podobny jak w MDPI: płacimy (pewnie nie aż 270 milionów, ale sporo), to mamy.

Ręczne sterowanie

Wszyscy wiemy, że późniejsze interwencje ministrów wprowadzały na listy zmiany bardzo osobliwe – pojawiły się liczne wydawnictwa przykościelne (wydająca kalendarze Księgarnia św. Jacka to tylko jeden z przykładów) i czasopisma lokalne, czasem nagle doceniane bez żadnej inicjatywy ze strony redakcji (tak było np. z „Analizą i Egzystencją”, polskim czasopismem filozoficznym ze Szczecina).

Minister podwyższał punkty, podwyższał, aż najbardziej popularnym czasopismem w ewaluacji w filozofii stały się „Roczniki Filozoficzne KUL”, deklasując dawniej najbardziej popularny „Przegląd Filozoficzny”. Jeśli na tym ma polegać sukces umiędzynarodowienia w tej reformie, to jest dosyć umiarkowany. Przy tym muszę podkreślić, że koledzy z „Roczników” (gdzie też publikowałem, nie tylko w „Przeglądzie”) wykonali trochę dobrej roboty – pismo jest indeksowane, ma międzynarodową radę wydawniczą, artykuły są recenzowane i ukazują się też po angielsku. Ale punkty mają zdecydowanie zawyżone.

To jednak drobiazg przy chaosie, który powstał przez żenująco słabą jakość rozporządzenia ministra. Nie dość, że jest to napisane niepotrzebnie zawile – odsyłacze do różnych punktów tworzą skomplikowaną sieć osobliwych reguł – a system iście rokokowy, to nie wszystkie podstawowe pojęcia są w ogóle zdefiniowane. Niektóre zdefiniowano nieostro: np. „ostateczna wersja publikacji” – w erze publikacji elektronicznych wydaje się, to moment przyznania numeru DOI lub ISBN, co sugerował też System Ewaluacji Dorobku Naukowego, ale wg wielu ekspertów dopiero wersja z numerami stron i ostateczną datą – często oznacza to, że artykuł byłby zaliczany do dorobku, kiedy de facto autor na stypendium podoktorskim dawno zakończył zatrudnienie w jednostce, czyli traci się takie publikacje.

Są jednak pojęcia w ogóle bez definicji. 

Cóż to jest edytorial? Nie wiadomo. Wedle niektórych ekspertów edytorialami są wstępy do prac zbiorowych, choćby miały objętość paru arkuszy wydawniczych. 

Cóż to jest artykuł recenzyjny? Czy np. komentarz do innego tekstu, opatrzony przypisami, ale o objętości trzech stron, jest artykułem recenzyjnym? Warto pamiętać, że w wielu czasopismach artykuły recenzyjne nie podlegają zewnętrznym recenzjom – podobnie jak edytoriale. Dlatego naprawdę nie jest jasne, dlaczego edytoriale się nie liczą jako naukowe, a artykuły recenzyjne – tak. Podobnie nie do końca jest jasne, jak traktuje się listy do redakcji – w wielu czasopismach („Nature”!) to są po prostu krótkie artykuły badawcze. To jest list czy artykuł? Eksperci znowu mają pełną dowolność.

Czy punkty za tłumaczenie przysługują autorowi oryginału, czy może tłumaczowi? Obojgu? Nie wiadomo.

Tak więc na funkcjonowanie systemu pomiarowego wpływa ręczne sterowanie wykazami przez ministra i niekonsekwentna ocena ekspercka. To zaburza podstawowy wymóg pomiaru – precyzyjność. Podczas gdy ministerialna lista miała zagwarantować zbieżność wyników, to modyfikacje w trakcie ewaluacje zaburzyły precyzję. Rozbieżności między ekspertami KEN – niektórzy np. traktowali polemiki naukowe jako artykuły recenzyjne; jedni akceptowali wstępy jako rozdziały książek, inni nie – podważały zbieżność. A sama nietrafność listy ministerialnej stała się wręcz krzycząco ewidentna.

Podobne problemy z rozbieżnościami ocen eksperckich wystąpiły w pozostałych kryteriach ewaluacji. 

Czy naprawa jest opłacalna?

Moim zdaniem, naprawa tego systemu jest praktycznie niemożliwa. Można przywrócić stare wykazy czasopism, zmieniając skalę i podwyższając punktacje dawniej docenionym najwyżej czasopismom (bo prawo wymaga stosowania najwyższej punktacji w okresie ewaluacji), ale niektóre wykazy były od początku gorzej przygotowane, bo trudno w miesiąc było ocenić wszystko równie dokładnie (np. od początku w teologii było sporo międzynarodowych czasopism bardzo kiepskiej jakości, przypisanych do wielu dyscyplin). Ministerstwo nigdy nie rozwiązało problemu, jak mają kontaktować się poszczególne komisje z różnych dyscyplin. Tego problemu nie da się rozwiązać dobrze, nie rewidując systemu podziału na dyscypliny, tak by odpowiadał praktykom cytowań.

Co więcej, wykazy wydawnictw mają za mało progów i nie są dopasowane do specyfiki dyscyplinarnej. Wykazy wydawnictw zresztą nie rozwiązują coraz częstszego problemu – mianowicie gigantyczne wydawnictwa kupują mniejsze, utrzymując starą markę lub czasem nieznacznie ją modyfikując. Czasem wprost przypisują mniejsze punkty (CRC Press to poziom I, kontra Routledge, poziom II, mimo że CRC Press należy do Routledge). Ale czasem stara marka jest ukryta w środku, na okładce jest nowa. Ile to punktów?

Rzecz jednak w tym, że trzeba by naprawić i definicje wszystkich typów publikacji, i sporządzić nowe wykazy wydawnictw, śledząc jednocześnie rozwój megaczasopism i wydawnictw na granicy drapieżności, pamiętając, że opieranie oceny badań na bibliometrii prowadzi do kryzysu replikacyjnego, bogacenia się koncernów wydawniczych i coraz większej liczby patologii. Nie ma co się czarować, pokątne fabryki artykułów, które czasem przejmują zamknięte czasopisma, a częściej generują masowo artykuły akceptowane przez nieuważnych lub przekupnych redaktorów, będą coraz więcej produkować, skoro mogą używać takiego narzędzia, jak chatGPT. Już teraz ocenia się, że wygenerowały setki tysięcy artykułów!

Podejście bibliometryczne nie jest przy tym zgodne z długofalową polityką naukową Komisji Europejskiej. Wprowadzone niedawno przez Komisję otwarte czasopism naukowe „Open Research Europe” nie stara się nawet o wskaźniki bibliometryczne (IF) i stosuje recenzje po publikacji, jak „eLife”. Co więcej, kryzys obiegu w czasopismach prowadzi do powstawania repozytoriów z systemami recenzji (Qeios, OpenReview itp.). Na dłuższą metę po prostu lepiej nie wspierać systemu, który się degeneruje.

Ja jestem zwolennikiem wprowadzenia jasnych, przejrzystych, ale jednocześnie odpowiednio rygorystycznych kryteriów oceny pracowniczej. Obecnie ewaluacja to próba zastąpienia niedziałającej oceny pracowniczej, ale jest to kanałowe leczenie zębów wiertarką udarową. Ocena pracownicza powinna dawać możliwość kształtowania polityki płacowej i kadrowej – nie tylko premie za wyższe wyniki, ale przy słabych wynikach, niewystarczających do oceny negatywnej, możliwość przesunięcia z etatu profesora uczelnianego na etat adiunkta, a nawet asystenta. 

Koniec ze zbieraniem szczurzych ogonów

Francuska administracja kolonialna liczy ogony szczurów

Marcin Miłkowski

Wkrótce nastąpi zmiana ministra odpowiedzialnego za naukę i szkolnictwo wyższe. Dlatego właśnie teraz warto wrócić do sprawy oceny jednostek naukowych, zwanej w biurokratycznej nowomowie „ewaluacją”. Wiele osób zwraca uwagę, że w tej ocenie dochodzi do nieprawidłowości, spodowowanych chociażby podwyższaniem przez ministra Czarnka punktacji lokalnym czasopismom o dosyć wątpliwej naukowej renomie. Tylko że próby naprawy są bezcelowe.

Ewaluacja jest niepotrzebna, droga, a w ostatecznym rozrachunku szkodliwa.

W 1902 roku w Hanoi była dżuma. Francuskie władze kolonialne postanowiły zwalczyć epidemię, wybijając szczury. Sami nie dali rady. Poprosili o pomoc mieszkańców. Ponieważ administracja nie chciała gromadzić ciał zakażonych dżumą szczurów, dawano nagrody za zbieranie samych ogonów na dowód zabicia szczura. Już wkrótce na ulicach miasta paradowały szczury z obciętymi ogonami. Dalej się rozmnażały, zwiększając zyski zbieraczy ogonów. Na papierze sukces, w rzeczywistości dżuma.

Ewaluacja jest zbieraniem szczurzych ogonów. Są dwa obozy: zwolennicy skomplikowanych obliczeń na ogonach zgodnie z międzynarodowymi standardami ogonoznawstwa oraz zwolennicy eksperckiego analizowania ogonów. Oba podejścia są błędne.

Rzecz w tym, że ewaluacja nie ma sensu, gdy weźmiemy pod uwagę koszty w stosunku do uzyskiwanych celów. Nie ma ona bowiem bezpośredniego wpływu na poziom finansowania ocenianych jednostek. Ten nigdzie wprost nie został uzależniony od wyniku oceny, bo zdarzały się wygrane jednostek naukowych w sądzie, a ministerstwo nie chciało wyrównywać błędnie zaniżonego poziomu subwencji. Być może ministerstwo bierze wyniki ewaluacji pod uwagę przy przydzielaniu subwencji, ale nie wiadomo jak. Jest to całkowicie nieprzejrzyste, nawet wtedy, gdy jednostka naukowa ma ocenę negatywną – wiadomo tylko, że ma mieć mniejsze dofinansowanie.

Wyniki ewaluacji nie mają wcale dominującego wpływu na poziom finansowania ocenianych jednostek. W przypadku uczelni nieznacznie modyfikuje ¼ części zmiennej subwencji (stanowiącej docelowo 75% całej subwencji), zależącej przede wszystkim od poziomu zatrudnienia na etatach badawczych, a znaczna obniżka występuje tylko przy uzyskaniu kategorii C (rzadkość). Nieco gorzej jest w przypadku instytutów PAN, które mają osobowość prawną i są dosyć małe – tu niewielkie nawet fluktuacje, zwłaszcza w dziedzinach humanistycznych społecznych, potrafią sporo zepsuć.* Ewaluacja wpływa za to bezpośrednio na dosyć nonsensownie skonstruowany katalog uprawnień, na przykład:

  • uprawnienia do prowadzenia kierunków studiów,
  • uprawnienia do prowadzenia szkół doktorskich,
  • uprawnienia do nadawania stopni i tytułów naukowych,
  • uprawnienia do zgłaszania kandydatów do różnych ciał doradczych (takich jak Komitet Ewaluacji Nauki).

To wszystko jest bez sensu. Ewaluacja ma oceniać jednostki pod trzema względami: poziomu publikacji, zdobywania środków na badania i komercjalizacji wyników oraz wpływu społecznego. Żaden z nich nie ma klarownego związku przyczynowo-skutkowego z poziomem dydaktyki, poziomem prac doktorskich, rzetelnością procesów awansowych czy poprawnym składem ciał doradczych.

Wszystkie uczelnie zainwestowały krocie w „robienie ewaluacji”. Zatrudniono specjalistów rekomendujących triki takie jak „odpinanie” publikacji, wymyślających opisy wpływu społecznego, a nawet wskazujących, którym pracownikom trzeba wpisać do dorobku fikcyjne publikacje (jak głosi złośliwa plotka). Kupione zostały drogie systemy informatyczne przygotowujące optymalne listy publikacji. Wyasygnowano ogromne pieniądze na nagrody i opłaty za publikowanie w czasopismach, które mają dużo punktów, a jednocześnie są stosunkowo łatwo dostępne. Naukowcy tracą czas na niepotrzebną zupełnie buchalterię punktową. A efekt całego procesu jest tylko taki, że większość jednostek uzyskała ocenę, która absolutnie nic nie zmienia. Ministerialne kategorie nikogo nie obchodzą, dopóki ktoś nie wypadnie z łask ministra (o tym dalej). Mamy więc ogromną inwestycję czasu i pieniędzy w proces, który nie prowadzi do niczego sensownego.

Najważniejszy w ewaluacji jest poziom publikacji, który liczony jest mechanicznie, ale w sposób bardzo skomplikowany. Zależy on przede wszystkim od ministerialnych punktów przyznanych dosyć arbitralnie wydawcom książek oraz, nieco mniej dowolnie, poszczególnym czasopismom naukowym. W tym ostatnim wypadku zależy on w taki lub inny sposób od popularności publikacji w tym czasopiśmie, mierzonych liczbą cytowań w innych publikacjach. Tylko że zarówno punkty za książki, jak i za czasopisma przypominają liczby ogonów.

Od liczby publikacji w popularnych ostatnio megaczasopismach, które mają sztucznie pompowane wskaźniki cytowań takie jak impact factor (które w istocie zależą też od negocjacji wydawców z firmą Clarivate, a nie tylko od liczby cytowań), nie zwiększy się poziom naukowy w Polsce. Gorzej, wskaźnik impact factor jest wysoki w czasopismach, które drukują tylko zaskakujące wyniki badań. Takie wyniki są mniej prawdopodobne niż to, co wiedzieliśmy wcześniej. Nic dziwnego, że jedyną rzeczą, z którą koreluje wysoki poziom impact factor jest niski poziom replikacji, a przypuszczalnie też fałszywość. Z tym wskaźnikiem jest dokładnie tak, jak ze szczurzymi ogonami. A od niego (lub jakiegoś jego wariantu) zależy większość punktów ministerialnych – poza tymi, które poza wszelkimi procedurami dodał minister Czarnek, kierując się tylko interesem parafiańszczyzny w polskiej nauce.

Jak się to ma do uprawnień? Prowadzenie kierunku studiów nie powinno być kwestią zatrudnienia tuzina pracowników z publikacjami w czasopismach o wysokiej liczbie cytowań, tylko odpowiedniego sprawdzenia możliwości prowadzenia rzetelnej dydaktyki przez wyspecjalizowane ciało zajmujące się oceną dydaktyki. Takie istnieje! Po co wyręczać Polską Komisję Akredytacyjną (PKA)? Już dzisiaj są liczne wątpliwości, czy otwierane masowo wydziały lekarskie porządnie wykształcą medyków.

Poziom rozpraw doktorskich czy uczenia w szkole doktorskiej nie zależy od poziomu publikacji w danej jednostce – zajęcia mogą prowadzić bowiem tam osoby w ogóle z innych jednostek, promotorzy mogą być spoza jednostki, a doktoraty przyznawane są przez rady, które nie muszą wcale składać się wyłącznie z osób z danej jednostki. Na przykład w instytutach PAN w naszych radach mamy bardzo wiele osób spoza instytutu. Ich dorobek wcale nie podlega ocenie, promotorami bywają specjaliści z innych uczelni, więc badanie poziomu naszych publikacji lub naszego wpływu społecznego ma luźny związek z poziomem samych rozpraw czy też rzetelnością procesu przyznawania tytułu profesora, który jest i tak nadzorowany w każdym przypadku przez Radę Doskonałości Naukowej (RDN). Niech ktoś pokaże przynajmniej jakąkolwiek korelację między wynikiem ewaluacji a jakością procesu analizy dorobku pojedynczych badawczy starających się o tytuł profesorski, bo na razie jest to mierzenie poziomu populacji wybitych szczurów przez liczenie ogonów.

Uważam, że uprawnienia do prowadzenia szkół doktorskich też powinny zależeć od oceny PKA, a nie od publikacji w jednostce. Dochodzi tu do absurdu: jednostka może nie mieć ani jednego samodzielnego pracownika, który mógłby być promotorem doktoratu, a jednocześnie ocenę co najmniej B+ i uprawnienia do doktoryzacji. Promotorem zaś może być osoba spoza tej jednostki, nawet gdy jest z jednostki z oceną C. Z kolei uprawnienia awansowe powinny zależeć od indywidualnego dorobku osób zaangażowanych w sam proces awansu (i częściowo już i tak zależą, bo recenzentów RDN wyznacza na podstawie kryteriów merytorycznych).

Więc może przynajmniej warto ograniczyć kandydowanie do ciał doradczych? A gdzie tam! Tak naprawdę kandydatki i kandydaci do tych ciał powinny być zgłaszani po prostu w ramach transparentnych procedur konkursowych, a nie dyskrecjonalnych decyzji ministra wybierającego kandydatury zgłoszone przez „najlepsze jednostki”.

Nie znaczy to, że poziom naukowy nie powinien podlegać ocenie. Ale podlega i tak, w ramach procedur awansowych (są przecież dogłębne procesy recenzji, wieloetapowe procedury itd.), recenzji w agencjach grantowych oraz oceny okresowej pracowników naukowych. Przykładem wręcz krzyczącej obłudy zwolenników reformy i nowego procesu ewaluacji było mówienie, że ma ona służyć ocenie jednostek, a nie pracowników. Skąd jednak mają się brać oceniane osiągnięcia, jeśli nie z pracy pracowników? Każdy rozsądny kierownik jednostki powinien kierować się ministerialnymi kryteriami, jeśli chce mieć wysoki wynik w ewaluacji (chociaż ma to równie mały sens, co kolekcjonowanie ogonów). Tymczasem wystarczyłoby wypracować transparentne kryteria okresowych ocen pracowniczych, w porozumieniu ze środowiskiem naukowym oraz związkami zawodowymi, a także określić minimalne wymagania na stanowiskach naukowych, naukowo-dydaktycznych i dydaktycznych, być może z uwzględnieniem specyfiki lokalnej czy danej tradycji badawczej. Pełna centralizacja nie jest tu potrzebna, ale jawność kryteriów i ocenianych wyników naukowych – owszem. Do szczęścia wystarczy nam więc działalność PKA oraz normalne funkcjonowanie jednostek naukowych, razem z raportowaniem wszystkich danych dotyczących wyników oceny w BIP.

Ewaluacja jest zbędnym wydatkiem. To źle wydane pieniądze, które powinny pójść na dofinansowanie NCN oraz pensje dla asystentów i adiunktów, bo niedługo nie będzie komu uczyć. Specjaliści pomagający generować sprawozdania do ewaluacji powinni raczej pomagać w pisaniu i realizacji projektów badawczych, zwłaszcza międzynarodowych.

Piszę to z perspektywy osoby zaangażowanej w spór prawny z MEiN. Rozprawę przed WSA mamy 3 listopada, a od ponad roku jako IFiS PAN walczymy o poprawienie technicznego błędu w danych przekazanych do ministerstwa. Tak, do naszych danych o publikacjach wkradł się błąd, bo informatyczny system ministerialny jest źle skonstruowany. Ale te dane każdy człowiek odczyta poprawnie – błąd jest po stronie ministerstwa, które używa systemów przetwarzania informacji, które nie potrafią rozwiązywać banalnego problemu rozpoznawania obiektów po nazwie (ang. named entity recognition). Ministerstwo upiera się przy swoim, zapewne z powodów politycznych, bo przecież nawet premier był łaskaw twierdzić, że szkalujemy Naród.

Ale tu nie chodzi o nas. Niech ogon nie macha psem. Dajmy spokój z manią nadzoru i mikrozarządzania pracownikami.

UWAGA: Skreślony fragment sprostowałem po dokładniejszej analizie sytuacji i po uwagach prof. Grzegorza Marca (IBL PAN).