Recenzje – pięta achillesowa systemów oceny

W obecnym systemie prawnym nauki i szkolnictwa wyższego ewaluacja stała się kluczowym elementem układanki. To utrudnia pozbycie się tego zupełnie zbędnego balastu – gdyż proces ten po prostu nie działa. Mamy wręcz jasne świadectwa, że jest szkodliwy dla rozwoju nauki:

Kolejnych publikacji będzie więcej, bo badania trwają lub są opracowywane – pokazują ogromny nakład sił i środków, a jednocześnie tkwimy w dysfunkcjonalnym systemie podziału na dyscypliny, co krótko pokazuje np. Robert Lew.

Dobrze, że trwa dyskusja nad zmianami. Niestety, odpowiedzią na łatwo manipulowalne punkty ministerialne – łatwo manipulowalne zarówno przez polityków, jak i przez nieuczciwych wydawców (polecam lekturę krótkiego tekstu Leszka Wrońskiego i Tomasza Żuradzkiego, jak łatwo dostać się do dziesiątki „najlepszych pism” w filozofii w bazie Scopus) – nie są oceny eksperckie. Mimo że ostatnia propozycja zespołu doradczego do spraw ewaluacji przy prezesie PAN jest lepsza niż obecny system, to ma tę samą wadę.

Jest tak nie dlatego, że eksperci nic nie umieją. Idea jest taka, że do oceny – jakościowej – ma służyć recenzja (peer review). Tylko że sęk w tym, iż recenzowanie jest jednym z najsłabszych ogniw w nauce. Wiemy, że nie można go uznać go za system kontroli jakości, bo recenzenci nie potrafią wyłapać nawet najgrubszych błędów, a często też błędnie rzutują swoje upodobania, rekomendując akceptację lub odrzucenie artykułu. Są na ten temat badania. W najlepszym razie można uznać recenzję za pogłębioną (antagonistyczną) dyskusję naukową, jak argumentuje Stephen Cowley. Co więcej, oceny recenzentów zależą od tego, do jakiego pisma recenzują – zmieniają się standardy oceny, a z badań symulacyjnych widzimy, że tak musi być.

 Wiadomo, że w recenzjach pojawiają się rozmaitego rodzaju nadużycia, typu wymuszone cytowania, rekomendacje niezgodne z analizą treści (klasyczna „negatywna z pozytywną konkluzją” w polskim systemie awansowym), lakoniczne i powierzchowne uwagi itd., itp. Co więcej, istnieje zawsze możliwość konfliktu interesu – na co zresztą wskazuje WSA w wyroku ws. ewaluacji mojego instytutu

Podobnie, jak biegły w przypadku, o którym mowa w tym przepisie, ekspert w procedurze ewaluacji wykonuje funkcję dzielenia się z organem posiadanymi przez siebie wiadomościami specjalnymi. Choć KEN składa się z m.in. przedstawicieli jednostek szkolnictwa wyższego, to jej członkowie nie muszą in gremio posiadać specjalistycznej wiedzy z zakresu wszystkich poszczególnych dyscyplin nauki. Skoro zatem w postępowaniu ewaluacyjnym ekspert wykonuje funkcję biegłego, to na mocy art. 84 § 2 k.p.a. należy do niego stosować art. 24 k.p.a., a zwłaszcza § 3 tego przepisu, który umożliwia stronie złożenie wniosku o wyłączenie od udziału w postępowaniu. W sytuacji, w której strona postępowania nie zna personaliów eksperta, nie może ocenić, czy ekspert podlega wyłączeniu. Nie może również skonfrontować merytorycznych kwalifikacji osoby powołanej do zadań eksperta w zakresie jego udziału w postępowaniu, a mianowicie nie może sprawdzić, czy wskazana przez organ osoba rzeczywiście posiada kwalifikacje gwarantujące, że dysponuje ona wiedzą ekspercką w zakresie związanym z dyscypliną podlegającą ewaluacji.

To wszystko wskazuje, dlaczego coraz więcej instytucji przyjmuje model otwartych recenzji – pozwala to uniknąć manipulacji ich treściami. Wiele czasopism – np. „eLife” w ogóle rezygnuje z recenzji przed publikacją, nie uzależniając decyzji o publikacji od recenzji (chociaż możliwe, że to właśnie doprowadziło do zwiększenia dyskrecjonalnej władzy redaktorów, odrzucających teksty bez recenzji). Są też poważne argumenty, aby w ogóle porzucić system recenzyjny w nauce:

  • Heesen, Remco, i Liam Kofi Bright. „Is Peer Review a Good Idea?” The British Journal for the Philosophy of Science 72, nr 3 (wrzesień 2021): 635–63. https://doi.org/10.1093/bjps/axz029.

Krótko mówiąc, obecny system recenzji w czasopismach ma kilka wad:

  1. Znaczne koszty (czas naukowców): Proces recenzji wymaga wielu godzin pracy recenzentów oraz zaangażowania redaktorów, którzy sami są naukowcami. Czas ten mógłby być przeznaczony na prowadzenie badań naukowych.
  2. Opóźnienia w publikacji: Recenzja przed publikacją często powoduje znaczne opóźnienia w udostępnianiu wyników badań, co hamuje postęp naukowy i może prowadzić do niepotrzebnego powielania pracy przez innych naukowców.
  3. Niska skuteczność w wykrywaniu oszustw i błędów: Recenzja przed publikacją nie jest skutecznym narzędziem do wykrywania oszustw naukowych ani błędów metodologicznych. Wielu prominentnych przypadków oszustw przeszło przez proces recenzji niezauważone.
  4. Niska zgodność między recenzentami: Badania pokazują, że istnieje niska spójność ocen między recenzentami. To oznacza, że oceny recenzentów są często niespójne i subiektywne, co podważa wiarygodność procesu recenzji.
  5. Tendencyjność: Recenzje przed publikacją mogą być tendencyjne; w grę wchodzą uprzedzenia związane z płcią (kobiety np. piszą bardziej odpowiedzialne wnioski grantowe, które są gorzej oceniane), statusem instytucji czy też osobistymi preferencjami recenzentów.
  6. Wzmacnianie efektu św. Mateusza: Proces recenzji może zwiększać efekt Mateusza, gdzie bardziej znani naukowcy otrzymują więcej uwagi i zasobów, niezależnie od rzeczywistej wartości ich pracy, co prowadzi do niesprawiedliwości w alokacji zasobów naukowych. (Eksperyment z publikacjami Kapeli Pilaki to ładnie potwierdził).
  7. Wysokie koszty subskrypcji czasopism: Koszty związane z subskrypcją czasopism naukowych są znaczące. Zniesienie recenzji przed publikacją mogłoby zmniejszyć te koszty, poprzez przejście na model otwartego dostępu.
  8. Brak dowodów na poprawę jakości nauki: Dowody empiryczne nie potwierdzają, że recenzja przed publikacją znacząco poprawia jakość nauki. W rzeczywistości, korzyści przypisywane temu systemowi są często niejasne lub nieistniejące.
  9. Straty w potencjale innowacyjnym: System recenzji przed publikacją może zniechęcać do podejmowania ryzykownych, innowacyjnych badań, ponieważ naukowcy mogą obawiać się odrzucenia przez recenzentów preferujących bardziej konserwatywne podejście.

Do czego to obecnie prowadzi? Z jednej strony innowacyjne badania często ukazują się tylko w formie preprintów (co też wcale dobre nie jest, bo wtedy część z nich unika w ogóle zrecenzowania). Z drugiej strony – są prowadzone różne eksperymenty z reformą procesu recenzowania.

A gdybyśmy na to popatrzyli z perspektywy teorii pomiaru, to proces recenzji musiałby mieć dwie podstawowe cechy. Poprawne pomiary muszą być precyzyjne, zbieżne i trafne (Isaac, 2019). O precyzji świadczy to, że wielokrotnie wykonywane procedury pomiarowe konsekwentnie dają te same wyniki (w zbliżonych granicach błędu). Znacznie jednak bardziej skomplikowane jest osiągnięcie zbieżności, która polega na uzyskiwaniu tego samego wyniku za pomocą różnych procedur. W przypadku recenzji rzecz w tym, że ten sam recenzent musiałby tak samo ocenić tekst w różnych momentach. Nie wiemy, jak to kształtuje się w rzeczywistości, bo publikowane otwarte recenzje zwykle nie obejmują tekstów odrzuconych – a liczba dostępnych recenzji rekomendujących odrzucenie jest nikła, ale z doświadczenia redaktorskiego (m.in. siedem lat jako Associate Editor w „European Journal for Philosophy of Science”) wiem, że recenzentom często odmienia się zdanie – i nie wiadomo dlaczego. Natomiast zbieżność… Wszyscy wiemy, że zgodność między recenzjami (punkt 4) jest bardzo rzadka i wcale nie musi świadczyć o trafności recenzji. 

W przypadku systemu ewaluacji musielibyśmy mieć pewność, że recenzje będą precyzyjne i zbieżne. W niektórych agencjach czy programach grantowych wprowadza się np. dokładne opisy tego, co recenzent ma ocenić, co ułatwia uzyskanie stosunkowo wysokiej zbieżności i precyzji. Bez konkretnych wytycznych kończy się to niską spójnością ferowanych ocen. A trafność recenzji osób, które są przeciążone i dostają ogromną liczbę tekstów do oceny, jest wątpliwa.

Chciałem nawet tę spójność wyliczyć dla decyzji w poprzedniej ewaluacji. To nie jest żadna wielka filozofia. Ale oczywiście, w naszej ewaluacji wszystko jest tajne i poufne, więc odmówiono mi dostępu nawet do uzasadnień decyzji podejmowanych przez ekspertów. Znam tylko bardzo skrzywiony rozkład decyzji o odrzuceniach osiągnięć – filozofowie okazali się wyjątkowo dużą chęcią odrzucania, prawnicy kanoniczni – żadną.

Mam więc ogromne wątpliwości, czy można liczyć na rzetelność recenzentów. Zagraniczni recenzenci też będą tendencyjni, bo będą dopasowywać się do wyimaginowanych standardów (o których nikt nigdy explicite dokładnie nie informuje) w Polsce – dokładnie jak w badaniach symulacyjnych, pokazujących, jak impact factor kształtuje ocenę tekstu. Żeby to zapewnić, system musiałby być bardzo, ale to bardzo dokładnie przemyślany i transparentny. A to będzie kosztować.

Czy warto? Oczywiście, że nie warto.

Wielki słownik wchodzi na PocketBooki

Dostawaliśmy wiele próśb, żeby udostępnić słownik też w wersji na popularne w Polsce czytniki PocketBook. I oto już jest. Jedyny profesjonalny słownik angielsko-polski w wersji dającej się instalować na tych urządzeniach.

W porównaniu z wersją na urządzenia na Kindle jest parę różnic w formatowaniu, bo aplikacja Słownik ma pewne ograniczenia. Ale jak widać niżej, słownik jest dosyć aktualny i wie o istnieniu GPT-3.

Nasz słownik jest nie tylko gigantyczny, ale również dynamiczny. Jego zasoby będą rozwijane i uzupełniane. Wersja z poprawkami dokonanymi już w lutym 2024 roku zawiera poprawki do ponad 3 tysięcy haseł w porównaniu do poprzedniej aktualizacji w styczniu 2024 roku. Planujemy dalszą pracę nad tym słownikiem, a kolejne wersje będą dostępne bezpłatnie dla wszystkich nowych nabywców z naffy.

W dodatku każdy klient może zgłosić zauważone usterki w specjalnie przygotowanym portalu – tych nie da się uniknąć przy skali tego wieloletniego przedsięwzięcia.

Instalacja

Plik wielki_en_pl.pbi należy skopiować na urządzenie PocketBook, przesyłając zakupiony plik za pomocą kabla USB do głównego katalogu, na kartę micro SD lub pobierając go na dysk bezpośrednio z internetu w urządzeniu. Następnie należy wybrać ten plik w aplikacji Książki. Instalacja nastąpi automatycznie. Aby korzystać ze słownika, należy otworzyć aplikację Słownik. W aplikacji słownik pojawi się w kategorii INNE. 

Funkcje słownikowe dostępne są wyłącznie w urządzeniach PocketBook. Nie będą działać poprawnie na innych czytnikach.

Słownik bestsellerem nr 1

W księgarni ebookpoint nasz słownik w styczniu wspiął się na szczyt listy bestsellerów!

Zrzut ekranu z listy bestellerów w księgarni ebookpoint

Wyprzedziliśmy nawet najnowszą książkę Remigiusza Mroza, ale podobno za tydzień ma napisać większy słownik od naszego.

Zgodnie z obietnicami nasz słownik jest dynamiczny. Właśnie przygotowujemy uaktualnioną wersję słownika – będzie ona dostępna bezpłatnie dla dotychczasowych klientów księgarni ebookpoint. Dzisiaj wskoczyło pięć nowych haseł do naszego systemu leksykograficznego: backpropagation, foundation model, gradient descent learning, large language model i prompt engineering (oraz nowe znaczenie w haśle prompt), bo trzeba przecież uwzględnić rozwój i upowszechnianie się narzędzi sztucznej inteligencji:

Nowe hasła ze słownika w systemie SIL Fieldworks: backpropagation, foundation model, gradient descent learning, large language model i prompt

Uruchomiłem też możliwość zgłaszania usterek czy pomyłek w słowniku przez specjalny formularz. Można zgłosić brakujące hasła, literówki lub inne dziwadełka. Moi koledzy-leksykografowie pieszczotliwie nazywają je „fąframi” – to osobliwe hasła w słowniku, których pochodzenia nie jest w stanie nikt dojść. W słownikach języka polskiego takim hasłem jest „sajerz”, a u nas… No cóż, właśnie skasowałem bardzo dziwne hasło map of the Iraq. Może je wpisał jakiś tajny agent?

Mam już też przygotowaną wersję słownika na czytniki PocketBook, ale posiadane przeze mnie urządzenie musiało pójść do serwisu, więc nie mogłem w pełni jej przetestować przed wprowadzeniem do sprzedaży. Ale serwis już skończył pracę, więc za kilka dni powinno się udać sprawdzić, czy wszystko gra.

A w dalszych planach – wersja do systemu Android (też na czytniki książek), a potem iOS. Aplikacje będą płatne, ale za to całkowicie offline, bez jakichkolwiek reklam i śledzenia użytkowników, a także z dożywotnią aktualizacją (dopóki wielkie korporacje nie postanowią inaczej, tak jak spotkało nas to w Amazonie). Słowniki nie są od tego, żeby być tablicami reklamowymi i narzędziami szpiegowskimi.

Wielki słownik angielsko-polski wraca na czytniki Kindle

Zapraszamy do odkrycia naszego „Wielkiego słownika angielsko-polskiego” w najnowszym wydaniu w księgarni ebookpoint.

To nie tylko największy tego typu słownik na świecie, ale też najbardziej aktualny i wszechstronny. Zawiera on imponującą liczbę 1,8 miliona wyrazów, obejmujących kilkaset tysięcy znaczeń w ramach ponad dwustu tysięcy definicji. To oznacza, że nasz słownik przekracza zakres największych wcześniej wydanych słowników o ponad 20%.

Ale to nie tylko liczba haseł świadczy o wyjątkowości tego projektu. Wyróżnia się on słownictwem specjalistycznym z ponad 150 dziedzin, w tym zwłaszcza biznesu i finansów. Dzięki współpracy z wybitnym specjalistą w tej dziedzinie, Romanem Kozierkiewiczem, nasz słownik jest nie tylko największy, ale również najbardziej kompleksowy.

Nasz słownik jest jedynym wielkim słownikiem angielsko-polskim, który uwzględnia słownictwo XXI wieku. Staraliśmy się zachować równowagę pomiędzy słownictwem brytyjskim a amerykańskim, uwzględniając oczywiście także w pewnym stopniu pozostałe odmiany języka angielskiego. Odmianę brytyjską, obowiązującą przecież także w oficjalnej angielszczyźnie Unii Europejskiej, potraktowaliśmy jako podstawową.

Nasz słownik jest nie tylko gigantyczny, ale również dynamiczny. Jego zasoby są rozwijane i uzupełniane. Wersja z poprawkami dokonanymi już w styczniu 2024 roku zawiera poprawki do ponad 10 tysięcy haseł w porównaniu do poprzedniej aktualizacji w styczniu 2022 roku. Planujemy dalszą pracę nad tym słownikiem, a kolejne wersje będą dostępne bezpłatnie dla wszystkich nowych nabywców z księgarni Ebookpoint.

Funkcje słownikowe dostępne są wyłącznie w urządzeniach Kindle lub w oprogramowaniu Kindle. Nie będą działać poprawnie na innych czytnikach; plik otworzy się w postaci zwykłej książki.


Prof. dr hab. Dariusz Jemielniak, Akademia Leona Koźmińskiego
Dr hab. Marcin Miłkowski, prof. IFiS PAN, Instytut Filozofii i Socjologii PAN

Punkty za czasopisma to wisienka na spleśniałym torcie

W dyskusjach nad wadami obecnego systemu oceny parametrycznej, zwanej też „ewaluacją”, dyscyplin naukowych często zakłada się, że system ten został zepsuty przez liczne zmiany w punktacjach czasopism, wprowadzane przez ministra Przemysława Czarnka. Kuriozalne czasopismo, jakim jest „Pedagogika Katolicka”, otrzymuje już przecież maksimum punktów. Oczywiście, te zmiany dają nieuzasadnione przewagi autorom tekstów z takich pism – w tym kandydatom do stypendium ministra dla wybitnych młodych naukowców. Tymczasem te zmiany to wisienka na zupełnie spleśniałym torciku z robalami. Ten system nie został zepsuty. Był od razu źle wymyślony.

Skupię się tu przede wszystkim na publikacjach, ale wiele z tych problemów występuje też w przypadku kryterium II (granty i komercjalizacja) i III (wpływ społeczny).

Pomysł oparcia oceny badań na prostych wskaźnikach ma swoje zalety. Po pierwsze, wydaje się intersubiektywnie sprawdzalny, po drugie w miarę niezależny od subiektywnych opinii, a wreszcie – przecież wydawnictwa i czasopisma cieszą się często zasłużonym prestiżem. W dodatku przecież czasopisma chwalą się wskaźnikami cytowań. Samo w sobie nie wydaje się to więc zupełnie nonsensowne. Ba, ocena wyników badań w taki sposób ma w sobie pewien potencjał emancypacyjny: otóż nie liczy się, gdzie ktoś był wykształcony i gdzie pracuje, lecz gdzie i jak dużo publikuje. W ten sposób ocena oparta na publikacjach pozwala osobom na początku kariery naukowej zyskać pewną merytoryczną przewagę. Istotnie, zatrudnienie w nauce na całym świecie zależy przede wszystkim od prestiżu instytucji, z której się dana osoba wywodzi, ale dzięki wzrostowi wagi publikacji osoby ze znakomitymi publikacjami mogą przynajmniej zacząć konkurować z absolwentami Oksfordu. Bez oceny publikacji z kolei konkursy na zatrudnienie w nauce mogą być rozstrzygane dosyć arbitralnie – nawet tworzyć kliki.

Tak więc są powody, żeby uważać cechy publikacji za dobrze oddające wartość badań. A przynajmniej lepiej od oceny eksperckiej, która bywa chwiejna, stronnicza i nieprofesjonalna. A publikacje przecież są recenzowane.

Problem jednak w tym, że wcale nie jest tak łatwo. Zacznijmy od prostej sprawy – zobaczmy, kiedy pomiar jest poprawny.

Wymogi prawidłowego pomiaru

Prawidłowy pomiar musi być:

  •  precyzyjny (powtarzalny w czasie i odtwarzalny przez różne osoby),
  •  zbieżny (ten sam wynik uzyskiwany różnymi metodami),
  • trafny teoretycznie (musi mierzyć badaną własność).

Na pierwszy rzut oka może wydawać się, że wskaźniki typu „impact factor”, w skrócie IF, (firmy Clarivate) czy „SJR” (firmy Elsevier) mogłyby spełniać te wymogi. Warto od razu uświadomić sobie, że poziomy cytowań mają niedogodny do pomiaru średniej jakości naukowej rozkład: 80 procent cytowań przyciąga 20 procent artykułów, co sprawia, że słabo generalizują się na jakość całego czasopisma. Do tego, niestety, mimo że wyniki są odtwarzalne przez różne osoby (mające dostęp do tych komercyjnych baz danych), to niekoniecznie są powtarzalne w czasie, gdyż wskaźniki bywają korygowane. Załóżmy, że z powodu korekty błędów pomiaru (chociaż niekoniecznie, o czym za chwilę). Najciekawsze jest jednak to, że nie są zbieżne.

O braku zbieżności przekonaliśmy się łatwo jako członkowie komisji ds. ustalenia punktacji czasopism w dyscyplinie filozofia. Różne wskaźniki przypisywane czasopismom ze sobą nie korelują. A jest tak między innymi dlatego, że IF podlega daleko idącym negocjacjom z wydawcami czasopism, którzy decydują, co podlega zliczaniu. Zmiany mogą prowadzić do modyfikacji IF o jeden rząd wielkości. SJR z racji mniejszej istotności podlega mniejszym fluktuacjom. Czyli nie mamy pewności, co jest wynikiem poprawnym, chociaż zapewne SJR lepiej oddaje poziom cytowań.

Najgorzej jednak z trafnością teoretyczną. Cytowalność jest jak sława (stąd też ten osobliwy rozkład statystyczny). Sławą cieszą się nie rzeczy prawdziwe, tylko, no cóż, te, które są… sławne. To często samonapędzający się mechanizm. Wspierając IF, wspieramy celebrytyzm w nauce. Cytuje się nie tylko wyniki prawdziwe, bo się je ceni, ale też głupie. Wysoki poziom cytowań utrzymują też prace wycofane z czasopism – nawet po ich retrakcji. A wtedy już wiadomo, że nie są prawdziwe.

Gorzej, w czołowych czasopismach, takich jak „Science”, „Lancet” czy „Nature”, zauważono, że więcej cytowań mają prace nowe i oryginalne. A te są bardziej zaskakujące, czyli mniej prawdopodobne. I nic dziwnego, że IF wtedy koreluje z niskim prawdopodobieństwem – a więc z niskim poziomem replikacji.

W istocie więc te wskaźniki nie mierzą niczego więcej poza sławą. Wiadomo, że naukowcy pragną uznania – być może, jak chciałby Hegel, w tym przypadku po prostu są ludźmi, bo ludzie wedle niego z zasady pragną uznania i szacunku. Tylko że uznanie międzynarodowe mierzone cytowaniami to celebrytyzm.

Co ciekawe, monografie naukowe nie są mierzone tymi wskaźnikami – choćby dlatego, że wzrosty cytowań książek nie dają się mierzyć rzetelnie w tak krótkich okresach, jak w przypadku artykułów. Wielu wydawców w ogóle nie jest zainteresowanych liczeniem cytowań książek. A to znaczy, że mamy dużą grupę publikacji, których nie sposób ocenić w ten sposób. Do nich dochodzą też recenzowane materiały z konferencji międzynarodowych – istotne i naukowo najlepsze w informatyce, ale nie w innych dyscyplinach. Powstaje pytanie, jak to wszystko jednolicie uwzględnić w ocenie jednostek?

Mimo wszystko jednak publikacje rzeczywiście pozwalają osobom z mniej uprzywilejowanym startem (a z punktu widzenia nauki światowej, to wszyscy w Polsce mają słaby start) zyskać jakieś uznanie międzynarodowe. Tylko że nie tylko Polacy dostrzegli w tym szansę na wybicie się. Mnóstwo ośrodków naukowych aspiruje do lepszej pozycji w rankingach i szuka więcej lajków w rankingach uczelni (do tego to się w sumie sprowadza – metodologia tych rankingów, traktowanych śmiertelnie poważne w polityce i publicystyce, krzyczy o pomstę do nieba).

Efekt jest porażający: coraz trudniej publikować w tzw. prestiżowych czasopismach, nawet jeśli nie mają one żadnych wskaźników bibliometrycznych. Na przykład żeby zatrudnić się w filozofii na dobrej uczelni w świecie anglojęzycznym, trzeba mieć publikacje w ramach dziesiątki najbardziej cenionych czasopism. One zaś przyjmują czasem tylko 3% nadsyłanych artykułów i są tak przywalone falą tekstów, że jakość tych recenzji czasem jest porażająco niska. Nic dziwnego, to już loteria.

Jaki jest dalszy efekt? Ano efekciarstwo – coraz bardziej trzeba się starać, żeby mieć tekst w prestiżowym czasopiśmie, co pogłębia jeszcze bardziej presję na nieoczekiwane wyniki, które – podkreślę jeszcze raz – są mniej prawdopodobne, a więc przypuszczalnie fałszywe. I nie będą się replikować. Obieg czasopism naukowych, zastosowany do pomiaru jakości badań, zaczyna się wynaturzać – nie jest środkiem komunikacji, lecz sam zaburza komunikację. Dokładnie na takich samych zasadach jak walka o uwagę w mediach społecznościowych.

Nie ma nic za darmo – jeśli chcemy iść na skróty i tanio ocenić jakość naukową badań, to zapłacimy kryzysem nauki. System czasopism naukowych jest w głębokim kryzysie z punktu widzenia nauki, ale dla wydawców to złota kura, przynosząca coraz więcej zysków (np. miliard dolarów rocznie w przypadku Elseviera).

Jednym z rozwiązań tego problemu jest zmiana polityki redakcji czasopism i publikowanie tylko artykułów o wysokiej jakości naukowej, bez oceniania, jak bardzo są przyczynkarskie i nienowatorskie – te oceny zresztą są nadzwyczaj wątpliwe, o czym świadczy casus tegorocznej laureatki Nagrody Nobla, Katalin Karikó, której artykuł odrzucono z „Nature” bez recenzji (jak większość artykułów – to czasopismo recenzuje tylko niewielką część nadsyłanych artykułów, większość odrzuca wedle widzimisię redaktorów). Inną politykę mają nowe czasopisma takie jak „PLoS” czy „eLife”. W „eLife” posunięto się o krok dalej – publikuje się wszystko, co przejdzie przez sito redaktorów (znowu tu, niestety, jest widzimisię), a recenzje zamawia się po publikacji. Gdyby więcej czasopism tak postąpiło, to moglibyśmy powstrzymać degenerację komunikacji naukowej – a jednocześnie nastąpiłby krach wskaźników bibliometrycznych.

Większość jednak idzie drogą wyznaczoną przez MDPI – przyjmować jak najwięcej tekstów, zmniejszyć selektywność, robić miliony numerów specjalnych, podnieść wskaźniki. Elsevier i Wiley postępują tak samo, o czym świadczą niedawne protesty redakcji „NeuroImage” (w całości odeszli w proteście przed presją wydawcy na wydawanie jak najwięcej tekstów).

Tu uwaga na marginesie: sam zgodziłem się wejść do rady redakcyjnej pisma „Philosophies” (bodaj 20 punktów ministerialnych” wydawanego przez MDPI, które miało właśnie odrzucić błędną politykę nacisku na niejasno rozumianą oryginalność i nowość, lecz skupiać się na jakości merytorycznej. Kilkakrotne odrzuciłem słabe teksty – i nie ukazały się one w tej formie. Potem jednak zaczęły wracać (lecz nie ma moje biurko), a MDPI coraz bardziej stawiało na numery specjalne i obłędnie szukało metod podwyższania wskaźników. Wyraźnie ostrzegałem, że to błędna polityka. Mój głos – i kilku moich koleżanek i kolegów – zignorowano, w efekcie czego rok temu zrezygnowaliśmy z udziału w tej redakcji.

Dyscyplinowanie naukowców

Jakby tego było mało, to sława zależy, oczywiście, od wielkości dyscypliny. Reforma ministra Gowina opiera się na absurdalnej – z punktu widzenia filozofii nauki – idei, że istnieją realne podziały między dyscyplinami naukowymi. Tymczasem dyscypliny to czysto konwencjonalne i biurokratyczne kategorie, które w Polsce są tak ogólne, że zacierają różnice metodologiczne czy teoretyczne między naprawdę zróżnicowanymi tradycjami badawczymi. Filozof biologii często więcej ma wspólnego z biologami niż z historykiem filozofii średniowiecznej. Logik prędzej dogada się z matematykiem niż ze znawcą współczesnej filozofii francuskiej. W dodatku w różnych tradycjach badawczych panują inne zasady cytowania źródeł. Podręczniki psychologii wszystkie powołują się na źródła i literaturę przedmiotu, podręczniki logiki – praktycznie nigdy tego nie czynią. To samo występuje w czasopismach – w „Synthese”, jednym z bardziej znanych pism filozoficznych, recenzent regularnie dostaje pytanie w ankiecie dołączonej do recenzji opisowej, czy wszystkie cytowania są niezbędne i czy nie można skrócić bibliografii. Rzecz nie do pomyślenia w czasopismach psychologicznych.

Tylko że wskaźniki bibliometryczne liczy się wszędzie tak samo – i wtedy okazuje się, że filozofia nauki jest z zasady lepsza od historii filozofii niemieckiej, bo jest bardziej popularna, a one wszystkie są mniej naukowo istotne od badań w naukach o zdrowiu. A skoro punkty są porównywane między dyscyplinami, to w czym problem?

Ano problem w tym, że w ramach tej samej tzw. dyscypliny są różne zwyczaje cytowania i różne poziomy cytowań. To jednak wierzchołek góry lodowej. Najważniejsze jest to, że dyscypliny są tworami urojonymi – to znaczy również, że w praktyce nie da się im niearbitralnie przypisać czasopism. Są, oczywiście, klasyfikacje dziedzinowe w bazach danych, ale te klasyfikacje nie są czymś, czym przejmowałaby się jakakolwiek redakcja czasopisma naukowego. Sam się kiedyś zdziwiłem, że „European Journal for Philosophy of Science”, gdzie jestem od lat redaktorem, ma klasyfikację „filozofia i historia nauki”, ale nie „filozofia”. Bądź tu mądry! Co więcej, wiele czasopism ma klasyfikatory z wielu dziedzin.

I cały chytry pomysł reformatorów, by przypisać czasopisma do dyscyplin, staje się podejrzany, skoro jednak są czasopisma przypisane do kilkudziesięciu, w których panują zupełnie inne zwyczaje i standardy cytowania.

Nie dość, że mierzymy sławę, to jeszcze wedle różnych standardów… Co mogłoby pójść nie tak?

Nikt tego jeszcze porządnie nie zbadał, ale prawdopodobnie jednym z efektów reformy jest zamknięcie dyscyplinarne i wybieranie czasopism „dyscyplinowych”, bo naukowcy zaczęli się bać odrzucania osiągnięć na podstawie niezgodności z deklarowaną dyscypliną. W praktyce okazało się to rzadsze, niż oczekiwano, ale się regularnie zdarzało. Mówię to z perspektywy dyscypliny, gdzie odrzucono wielokrotnie więcej osiągnięć niż gdziekolwiek indziej – eksperci w filozofii okazali się wyjątkowo gorliwi w kwestionowaniu dorobku. W prawie kanonicznym nie odrzucono nic, ale nie powinno to dziwić – do tej dyscypliny przypisano prawie wszystkie czasopisma świata.

Ekspercka poprawka

Reformatorzy zauważyli te osobliwości i pod presją środowiska naukowego minister Gowin powołał komisje specjalistów, którzy mieli ustalić punktacje w poszczególnych dyscyplinach i ustalić listę czasopism dla danej dyscypliny. Sam wszedłem do komisji ds. czasopism w filozofii. Dostaliśmy na to miesiąc. Potem sprawą miał zajmować się KEN, ale sprawy w swoje ręce wziął minister Czarnek – z wiadomym efektem. Sam pomysł, że KEN ma z powodzeniem zastąpić kilkadziesiąt komisji złożonych z kilkunastu osób, zasługuje jednak na medal z ziemniaka.

W niektórych dyscyplinach do przejrzenia było kilka, a nawet kilkanaście tysięcy tytułów. Przypisania okazały się też nader hojne – początkowo listy dostaliśmy zupełnie błędne, co skróciło jeszcze bardziej czas możliwości naszego działania. I do dzisiaj nie wiem, czemu miał służyć ten pośpiech – chyba tylko temu, żebyśmy już ministerstwu głowy nie zawracali. Ministerstwo też uprzejmie poprosiło o utylizację wszystkich danych, które dostaliśmy, bo wszystkie procesy ustalania punktów miały być ściśle tajne. Diabeł jeden wie dlaczego.

Trzeba jednak przyznać, że wprowadzenie etapu oceny eksperckiej było istotnym ulepszeniem. wskaźniki bibliometryczne zostały wybrane przez ekspertów dla poszczególnych dyscyplin, a potem punkty mogły być w pewnych granicach przesuwane. Na przykład zauważyliśmy w komisji, że czasopisma z historii filozofii są mniej cytowane od czasopism z filozofii nauki. Nic dziwnego, w nauce nie cytuje się prac historycznych o Kancie. Są one cytowane częściej w monografiach, które nie podlegają najczęściej rzetelnemu indeksowaniu przez komercyjne firmy. Postaraliśmy się jednak, aby wszystkie poddyscypliny filozofii miały najbardziej prestiżowe czasopisma w gronie najwyżej punktowanych, mimo różnic w poziomach cytowań. Te poziomy wynikają jednak z różnych praktyk cytowania w różnych dyscyplinach.

Sęk w tym, że inne komisje nie musiały tak robić – i powstał metodologiczny bałagan, który pozostaje tym bardziej dotkliwy, że niektóre komisje wcale nie godziły łatwo na skreślanie czasopism przypisanych do nich z niewiadomych powodów (np. do dzisiaj nie wiem, jakim cudem do nauk o zdrowiu przypisano pismo filozoficzne „Minds and Machines”, przez co znacznie obniżyła się mu punktacja na tle ogromnych wskaźników w dziedzinach biomedycznych).

Początkowe listy jednak były na pewno lepsze – i gdyby utrzymano stałe komisje, monitorujące rozwój wydarzeń, może część patologii z czasopismami wysoko punktowanymi, a łatwo dostępnymi (za opłatą) zostałaby usunięta. Tylko że istnienie słabych czasopism z dużymi punktami było opłacalne dla tych wszystkich, którzy drukowali tysiące artykułów w wydawnictwie MDPI. Wg prof. Przemysława Hensla, który opracował dokładne statystyki tych polskich publikacji w MDPI, wydano prawdopodobnie na to ok. 274 milionów złotych.

Komisje ds. czasopism nie miały jednak wpływu na powstanie wykazu wydawnictw. Żeby było śmieszniej, wydawnictwa nie zostały przypisane do dyscyplin, chociaż w Brillu nie drukuje się dobrych monografii z logiki – najlepsze są w Springerze. Tu wprowadzono tylko dwie kategorie, przez co najlepsza monografia z logiki dostaje tyle punktów, co książka wydana przez moje instytutowe wydawnictwo. A ktoś, kto opublikuje monografię po niemiecku w  Suhrkamp Verlag (wydawca np. Jurgena Habermasa), dostanie tyle punktów, ile za druk cyfrowy wykonany na własne zamówienie. Ponownie – wszystko jest tutaj utajnione przez ministerstwo, ale wykaz od początku był dziwaczny. 

Tymczasem niektóre dyscypliny, np. historia, opierają się głównie na monografiach. Powstały więc specjalne polskie serie wydawnicze, które pozwalają zbierać punkty polskim autorom. To jest efekt podobny jak w MDPI: płacimy (pewnie nie aż 270 milionów, ale sporo), to mamy.

Ręczne sterowanie

Wszyscy wiemy, że późniejsze interwencje ministrów wprowadzały na listy zmiany bardzo osobliwe – pojawiły się liczne wydawnictwa przykościelne (wydająca kalendarze Księgarnia św. Jacka to tylko jeden z przykładów) i czasopisma lokalne, czasem nagle doceniane bez żadnej inicjatywy ze strony redakcji (tak było np. z „Analizą i Egzystencją”, polskim czasopismem filozoficznym ze Szczecina).

Minister podwyższał punkty, podwyższał, aż najbardziej popularnym czasopismem w ewaluacji w filozofii stały się „Roczniki Filozoficzne KUL”, deklasując dawniej najbardziej popularny „Przegląd Filozoficzny”. Jeśli na tym ma polegać sukces umiędzynarodowienia w tej reformie, to jest dosyć umiarkowany. Przy tym muszę podkreślić, że koledzy z „Roczników” (gdzie też publikowałem, nie tylko w „Przeglądzie”) wykonali trochę dobrej roboty – pismo jest indeksowane, ma międzynarodową radę wydawniczą, artykuły są recenzowane i ukazują się też po angielsku. Ale punkty mają zdecydowanie zawyżone.

To jednak drobiazg przy chaosie, który powstał przez żenująco słabą jakość rozporządzenia ministra. Nie dość, że jest to napisane niepotrzebnie zawile – odsyłacze do różnych punktów tworzą skomplikowaną sieć osobliwych reguł – a system iście rokokowy, to nie wszystkie podstawowe pojęcia są w ogóle zdefiniowane. Niektóre zdefiniowano nieostro: np. „ostateczna wersja publikacji” – w erze publikacji elektronicznych wydaje się, to moment przyznania numeru DOI lub ISBN, co sugerował też System Ewaluacji Dorobku Naukowego, ale wg wielu ekspertów dopiero wersja z numerami stron i ostateczną datą – często oznacza to, że artykuł byłby zaliczany do dorobku, kiedy de facto autor na stypendium podoktorskim dawno zakończył zatrudnienie w jednostce, czyli traci się takie publikacje.

Są jednak pojęcia w ogóle bez definicji. 

Cóż to jest edytorial? Nie wiadomo. Wedle niektórych ekspertów edytorialami są wstępy do prac zbiorowych, choćby miały objętość paru arkuszy wydawniczych. 

Cóż to jest artykuł recenzyjny? Czy np. komentarz do innego tekstu, opatrzony przypisami, ale o objętości trzech stron, jest artykułem recenzyjnym? Warto pamiętać, że w wielu czasopismach artykuły recenzyjne nie podlegają zewnętrznym recenzjom – podobnie jak edytoriale. Dlatego naprawdę nie jest jasne, dlaczego edytoriale się nie liczą jako naukowe, a artykuły recenzyjne – tak. Podobnie nie do końca jest jasne, jak traktuje się listy do redakcji – w wielu czasopismach („Nature”!) to są po prostu krótkie artykuły badawcze. To jest list czy artykuł? Eksperci znowu mają pełną dowolność.

Czy punkty za tłumaczenie przysługują autorowi oryginału, czy może tłumaczowi? Obojgu? Nie wiadomo.

Tak więc na funkcjonowanie systemu pomiarowego wpływa ręczne sterowanie wykazami przez ministra i niekonsekwentna ocena ekspercka. To zaburza podstawowy wymóg pomiaru – precyzyjność. Podczas gdy ministerialna lista miała zagwarantować zbieżność wyników, to modyfikacje w trakcie ewaluacje zaburzyły precyzję. Rozbieżności między ekspertami KEN – niektórzy np. traktowali polemiki naukowe jako artykuły recenzyjne; jedni akceptowali wstępy jako rozdziały książek, inni nie – podważały zbieżność. A sama nietrafność listy ministerialnej stała się wręcz krzycząco ewidentna.

Podobne problemy z rozbieżnościami ocen eksperckich wystąpiły w pozostałych kryteriach ewaluacji. 

Czy naprawa jest opłacalna?

Moim zdaniem, naprawa tego systemu jest praktycznie niemożliwa. Można przywrócić stare wykazy czasopism, zmieniając skalę i podwyższając punktacje dawniej docenionym najwyżej czasopismom (bo prawo wymaga stosowania najwyższej punktacji w okresie ewaluacji), ale niektóre wykazy były od początku gorzej przygotowane, bo trudno w miesiąc było ocenić wszystko równie dokładnie (np. od początku w teologii było sporo międzynarodowych czasopism bardzo kiepskiej jakości, przypisanych do wielu dyscyplin). Ministerstwo nigdy nie rozwiązało problemu, jak mają kontaktować się poszczególne komisje z różnych dyscyplin. Tego problemu nie da się rozwiązać dobrze, nie rewidując systemu podziału na dyscypliny, tak by odpowiadał praktykom cytowań.

Co więcej, wykazy wydawnictw mają za mało progów i nie są dopasowane do specyfiki dyscyplinarnej. Wykazy wydawnictw zresztą nie rozwiązują coraz częstszego problemu – mianowicie gigantyczne wydawnictwa kupują mniejsze, utrzymując starą markę lub czasem nieznacznie ją modyfikując. Czasem wprost przypisują mniejsze punkty (CRC Press to poziom I, kontra Routledge, poziom II, mimo że CRC Press należy do Routledge). Ale czasem stara marka jest ukryta w środku, na okładce jest nowa. Ile to punktów?

Rzecz jednak w tym, że trzeba by naprawić i definicje wszystkich typów publikacji, i sporządzić nowe wykazy wydawnictw, śledząc jednocześnie rozwój megaczasopism i wydawnictw na granicy drapieżności, pamiętając, że opieranie oceny badań na bibliometrii prowadzi do kryzysu replikacyjnego, bogacenia się koncernów wydawniczych i coraz większej liczby patologii. Nie ma co się czarować, pokątne fabryki artykułów, które czasem przejmują zamknięte czasopisma, a częściej generują masowo artykuły akceptowane przez nieuważnych lub przekupnych redaktorów, będą coraz więcej produkować, skoro mogą używać takiego narzędzia, jak chatGPT. Już teraz ocenia się, że wygenerowały setki tysięcy artykułów!

Podejście bibliometryczne nie jest przy tym zgodne z długofalową polityką naukową Komisji Europejskiej. Wprowadzone niedawno przez Komisję otwarte czasopism naukowe „Open Research Europe” nie stara się nawet o wskaźniki bibliometryczne (IF) i stosuje recenzje po publikacji, jak „eLife”. Co więcej, kryzys obiegu w czasopismach prowadzi do powstawania repozytoriów z systemami recenzji (Qeios, OpenReview itp.). Na dłuższą metę po prostu lepiej nie wspierać systemu, który się degeneruje.

Ja jestem zwolennikiem wprowadzenia jasnych, przejrzystych, ale jednocześnie odpowiednio rygorystycznych kryteriów oceny pracowniczej. Obecnie ewaluacja to próba zastąpienia niedziałającej oceny pracowniczej, ale jest to kanałowe leczenie zębów wiertarką udarową. Ocena pracownicza powinna dawać możliwość kształtowania polityki płacowej i kadrowej – nie tylko premie za wyższe wyniki, ale przy słabych wynikach, niewystarczających do oceny negatywnej, możliwość przesunięcia z etatu profesora uczelnianego na etat adiunkta, a nawet asystenta. 

Punkty jak kiełbasa

Prawo nakazuje ministrowi ustalać procedury ewaluacji nauki z uwzględnieniem jej rzetelności i przejrzystości. W praktyce jednak ministerstwo postępowało według zasady, że lepiej nie wiedzieć, z czego robi się kiełbasę. Troszcząc się o nasze dobre samopoczucie, ministerstwo chciało ograniczyć wiedzę opinii publicznej i naukowców o tym, jak ocenia się ich pracę. A przynajmniej takie odnieść można wrażenie.

kiełbasy pełne artykułów naukowych

Pełna jawność decyzji, wraz z uzasadnieniami i nazwiskami osób je podejmujących, to warunek konieczny dla poprawy jakości ewaluacji nauki. Powinno się też zapewnić możliwość zgłaszania błędów i odwoływania się od decyzji. Dotyczy to zwłaszcza wykazów publikacji punktowanych. Nie ma sensu ukrywać uzasadnień rekomendujących zmiany punktacji – jeśli są one błędne, to trzeba je anulować lub poprawić. Każda komisja może się przecież pomylić, zwłaszcza przy ogromie współczesnej produkcji naukowej.

Gdy pracowaliśmy nad eksperckimi listami czasopism – byłem wtedy w komisji dla filozofii – ministerstwo wysłało nam wiadomość: „po dniu 15 maja 2019 r. udostępnianie oraz wykorzystywanie do innych celów wszelkich posiadanych zbiorów odnośnie prac związanych z tworzeniem listy czasopism jest uznawane za niedopuszczalne. Dokumenty tego rodzaju, będące w posiadaniu członków ww. zespołów doradczych, powinny zostać zutylizowane”. Minister mógł oczywiście odmówić udostępnienia informacji o działaniu zespołów doradczych (art. 381. 2 ustawy) – nie była ona uznawana za informację publiczną. Ale jak to się ma do przejrzystości ewaluacji nauki?

Komisje miały możliwość uwzględniać nie tylko wskaźniki bibliometryczne, ale musiały dokładnie uzasadniać swoje decyzje i rekomendacje. Przygotowywaliśmy te uzasadnienia, choć mieliśmy na to skandalicznie mało czasu (poprzednia władza miała obsesję na punkcie pośpiechu i pracy po godzinach). Nie widzę żadnych przeszkód, żeby podpisać się pod naszymi decyzjami. Nie rozumiem też, dlaczego nie można ich upublicznić. My się ich nie wstydzimy. 

Oczywiście, eksperci mogą być narażeni na naciski – ale czy ukrywanie tożsamości ekspertów to nie jest nadmierna ostrożność? Przecież są oni znani w przewodach awansowych, gdzie podpisują się pod swoimi recenzjami. Jeśli decyzje będą jawne i podpisane przez konkretne osoby, to i tak ważniejsza będzie treść uzasadnień niż nazwisko. 

W dzisiejszych czasach toczy się wiele debat na temat roli recenzji w systemie publikacji naukowych. Próbuje się różnych metod – od pełnej anonimizacji (zarówno autora, jak i recenzenta) po pełną jawność (wszystkie dane są znane). Jednak gdy chodzi o ocenę już istniejących czasopism lub zgłoszonych osiągnięć, pełna anonimizacja jest niemożliwa. Pozostaje więc częściowa anonimizacja, ale tu nie ma sensu jej stosować. Kategoryzacja jednostek to kwestia administracyjna, a taka powinna być rozstrzygana w sposób jak najkorzystniejszy dla ocenianych – to nie jest egzamin ani konkurs grantowy. Filozof powiedziałby, że organ oceniający musi kierować się zasadą życzliwości w interpretacji, a jej naruszenie jest niezgodne z kodeksem postępowania administracyjnego. A jeśli eksperci będą zbyt życzliwi wobec niektórych czasopism, to zaraz wyjdzie to na jaw. Tymczasem nie wiemy, dlaczego tak potworne czasopisma, jak „Pedagogika Katolicka”, otrzymują 200 punktów. Chciałbym zobaczyć uzasadnienie – które nie może przecież trzymać się kupy i mogłoby być szybko obalone jako wadliwe.

Po 2019 roku było już tylko gorzej. Nie powoływano już zespołów eksperckich i nie udzielano żadnych informacji uzasadniających wysokość przyznanych punktów. Nie wiadomo było, do kogo zwracać się z prośbą o uwzględnienie lub zmianę na liście i jakie kryteria decydowały o coraz dziwniejszych zmianach w wykazach.

Ministerstwo nie przestrzegało zasad przejrzystości. Po zakończeniu ewaluacji MEiN udostępniło niektóre dane z systemu POL-on, np. wykazy osiągnięć zgłoszonych do ewaluacji w kilku dyscyplinach czy statystyki odrzuconych osiągnięć, ale nie chciało ujawniać kluczowych informacji – czyli ocen eksperckich wraz z uzasadnieniami. A przecież zobaczenie niespójności ocen między ekspertami – co jest nieuchronne w każdym takim procesie – mogłoby pomóc ulepszyć prawo, ale też wykryć ewentualne błędy w decyzjach. Chciałem obliczyć współczynnik kappa Cohena, aby sprawdzić jakość instrukcji przekazanych ekspertom. Bez danych nie mogę.

Nie wiem, na podstawie jakich przepisów powołano ekspertów oceniających osiągnięcia – byli ekspertami Komisji Ewaluacji Naukowej, a nie ministra, więc może lista ekspertów i ich oceny nie mogą być zatajone na podstawie artykułu 381 ustawy. W każdym razie nawet jeśli prawo pozwala na nieudostępnianie tych „dokumentów wewnętrznych” (choć nie jest to zgodne z rozumną interpretacją przepisu o rzetelności i przejrzystości procesu ewaluacji), to naczelniczka departamentu Nauki w MEiN na pytanie sędziego sprawozdawcy w Wojewódzkim Sądzie Administracyjnym (3 listopada 2023, rozprawa ws. skargi mojego instytutu) przyznała, że nie ma podstawy prawnej do ukrywania tożsamości ekspertów, a jest to jedynie zwyczaj.

Nie mamy dostępu do informacji publicznych dotyczących decyzji o skutkach finansowych badań naukowych lub prac rozwojowych. Nie udostępnia się ich, powołując się na przepisy o tajemnicy przedsiębiorstwa – bo ich ujawnienie mogłoby rzekomo prowadzić do nieuczciwej konkurencji. Tak, według tej interpretacji udostępnienie danych o grantach badawczych finansowanych ze środków publicznych, zarówno krajowych, jak i międzynarodowych, mogłoby naruszać tajemnicę… przedsiębiorcy. Może to mieć sens, gdy politechnika ma udziały w startupie, do którego wnosi know-how i z którego czerpie zyski. Ale w naukach humanistycznych i społecznych takie tłumaczenie jest absurdalne. Tymczasem ocena w kryterium II dotyczy właśnie tego – i jest ona porównawcza. Ani obywatele, ani jednostki naukowe nie mają prawa się niczego dowiedzieć na ten temat, chociaż na tej podstawie przyznaje się kategorię naukową. To skandaliczne.

Mój instytut wystąpił też o udostępnienie kodu źródłowego lub przynajmniej matematycznej specyfikacji algorytmu służącego do optymalizacji osiągnięć – czyli tworzenia wykazu najlepszych publikacji przeznaczonych do oceny. Nie tylko odpowiedziano nam, że nie wiadomo, co oznacza użyty przez nas termin „matematyczna specyfikacja”, ale też oczywiście odmówiono dostępu do kodu źródłowego. A o ile wiem, nikomu ściśle nie udało się odtworzyć wyników uzyskiwanych przez OPI przy generowaniu wykazów. Sama natura problemu wskazuje, że zapewne stosowany musi być jakiś algorytm przybliżający (przypuszczalnie problem, który realizuje OPI, jest znany w informatyce jako tzw. problem plecakowy – o bardzo dużej złożoności obliczeniowej, więc nie da się go wprost poprawnie rozwiązać z powodu jego trudności). Gdyby decyzje dotyczyły osób, to standardy RODO wymagałyby ujawnienia szczegółów. Niestety, w przypadku decyzji dotyczących osób prawnych – które w polskim prawie nie mogą być podejmowane przez algorytm, swoją drogą – nie mamy zasady obligatoryjnego dostępu do algorytmu podejmującego decyzje. A szkoda!

Ministerstwo nie tylko zataja informacje, ale też czasem zaniedbuje ich zbieranie. Wszystkie informacje o publikacjach naukowych muszą być zgłaszane do Polskiej Bibliografii Naukowej (PBN). To dziwny system bibliografii narodowej, gdzie to jednostki same mają być bibliotekarzami – ponieważ podstawową ideą ewaluacji jest to, żeby było tanio, zamiast zatrudniać fachowców, wymaga się poprawnych danych od użytkowników. To oczywiście mrzonka, bo dane nigdy nie są idealnie czyste. Muszą się pojawiać powtórzenia i nieścisłości. Najgorsze jest jednak to, że dane te są co jakiś czas automatycznie ujednolicane. To niby udogodnienie, ale… system nie informuje, jakie informacje się zmieniają.

A jeśli jakaś publikacja ma współautorów z kilku ośrodków, to może zacząć się wojna edycyjna. Sam widziałem wpisy w PBN z ponad 50 zmianami – istna zabawa w „strzyżono – golono”. Niestety, PBN nie udostępnia informacji, co zostaje zmienione. Co najwyżej widać, że coś zostało zmienione. System bowiem nie przechowuje informacji o konkretnych zmianach (co potwierdzono w odpowiedzi na mój wniosek o udostępnienie informacji publicznej na temat PBN), co jest kuriozalne. To tak jakby Wikipedia nie miała historii edycji pokazującej zmiany poszczególnych fragmentów artykułów, a jedynie pokazywała identyfikatory użytkowników i daty edycji. Zgroza. Nic dziwnego, że uczelnie wolą kupować specjalistyczne systemy do analizy danych z PBN i wprowadzania tam masowych poprawek, takie jak Omega PSIR.

System PBN nie daje możliwości korzystania z jego danych przez publiczne otwarte API. To znaczy, że tylko osoby uprawnione w jednostkach naukowych mogą mieć do nich dostęp i je edytować. To ogranicza potencjał ogromnej bazy danych, która mogłaby być wykorzystana w innowacyjnych aplikacjach dla naukowców (teraz z API korzystają tylko systemy do zarządzania bibliografiami jednostek).  A tak naprawdę wdrożenie tego to kwestia paru dni pracy. 

Przejrzystość jest też potrzebna do wykorzystania publicznie zbieranych danych. Gdyby PBN był lepiej dostępny, z publicznym API, to można by zrobić semantyczną wyszukiwarkę polskich publikacji – w każdym języku! – z użyciem nowoczesnych technik przetwarzania języka. Teraz łatwiej znaleźć informacje z Google Scholar czy Semantic Scholar o nowych artykułach z Nowej Zelandii, niż o nowej książce po polsku z Krakowa. Może ktoś by nawet stworzył system liczący cytowania z polskich publikacji, bo ministerstwo nie dało rady. Chyba że bało się prawdy.

Jeśli mamy utrzymać tego potwora, jaką jest ewaluacja (chociaż uważam, że powinna zostać w pełni zlikwidowana, bo jest źródłem degrengolady), to musimy dbać o przejrzystość. Ministerstwo powinno zagwarantować:

  • pełną jawność i pełne umocowanie w prawie kryteriów podejmowanych decyzji,
  • pełną jawność podstaw wszystkich podejmowanych decyzji,
  • pełną jawność ekspertów podejmujących decyzje,
  • powszechną dostępność procedur odwoławczych,
  • pełen dostęp do wszystkich informacji publicznych, być może z wyłączeniem tych informacji, które dotyczą niepublicznych podmiotów, które rzeczywiście prowadzą działalność gospodarczą.

Bez przejrzystości trudno oceniać wyniki reform. Teraz naprawdę nie wiemy, jakie są skutki reform ministra Gowina. Z własnego doświadczenia – potwierdzonego ostatnio wyrokiem sądu administracyjnego – widzę, że ewaluacja była przeprowadzana z pogwałceniem prawa i zdrowego rozsądku, z jakąś urzędniczą żarliwością do wynajdywania błędów i niechęcią do kontaktu z ocenianymi. Ale czy tak traktowano wszystkich, czy też wyłącznie jednostki naukowe oskarżane przez politruków o szkalowanie Narodu?

Koniec ze zbieraniem szczurzych ogonów

Francuska administracja kolonialna liczy ogony szczurów

Marcin Miłkowski

Wkrótce nastąpi zmiana ministra odpowiedzialnego za naukę i szkolnictwo wyższe. Dlatego właśnie teraz warto wrócić do sprawy oceny jednostek naukowych, zwanej w biurokratycznej nowomowie „ewaluacją”. Wiele osób zwraca uwagę, że w tej ocenie dochodzi do nieprawidłowości, spodowowanych chociażby podwyższaniem przez ministra Czarnka punktacji lokalnym czasopismom o dosyć wątpliwej naukowej renomie. Tylko że próby naprawy są bezcelowe.

Ewaluacja jest niepotrzebna, droga, a w ostatecznym rozrachunku szkodliwa.

W 1902 roku w Hanoi była dżuma. Francuskie władze kolonialne postanowiły zwalczyć epidemię, wybijając szczury. Sami nie dali rady. Poprosili o pomoc mieszkańców. Ponieważ administracja nie chciała gromadzić ciał zakażonych dżumą szczurów, dawano nagrody za zbieranie samych ogonów na dowód zabicia szczura. Już wkrótce na ulicach miasta paradowały szczury z obciętymi ogonami. Dalej się rozmnażały, zwiększając zyski zbieraczy ogonów. Na papierze sukces, w rzeczywistości dżuma.

Ewaluacja jest zbieraniem szczurzych ogonów. Są dwa obozy: zwolennicy skomplikowanych obliczeń na ogonach zgodnie z międzynarodowymi standardami ogonoznawstwa oraz zwolennicy eksperckiego analizowania ogonów. Oba podejścia są błędne.

Rzecz w tym, że ewaluacja nie ma sensu, gdy weźmiemy pod uwagę koszty w stosunku do uzyskiwanych celów. Nie ma ona bowiem bezpośredniego wpływu na poziom finansowania ocenianych jednostek. Ten nigdzie wprost nie został uzależniony od wyniku oceny, bo zdarzały się wygrane jednostek naukowych w sądzie, a ministerstwo nie chciało wyrównywać błędnie zaniżonego poziomu subwencji. Być może ministerstwo bierze wyniki ewaluacji pod uwagę przy przydzielaniu subwencji, ale nie wiadomo jak. Jest to całkowicie nieprzejrzyste, nawet wtedy, gdy jednostka naukowa ma ocenę negatywną – wiadomo tylko, że ma mieć mniejsze dofinansowanie.

Wyniki ewaluacji nie mają wcale dominującego wpływu na poziom finansowania ocenianych jednostek. W przypadku uczelni nieznacznie modyfikuje ¼ części zmiennej subwencji (stanowiącej docelowo 75% całej subwencji), zależącej przede wszystkim od poziomu zatrudnienia na etatach badawczych, a znaczna obniżka występuje tylko przy uzyskaniu kategorii C (rzadkość). Nieco gorzej jest w przypadku instytutów PAN, które mają osobowość prawną i są dosyć małe – tu niewielkie nawet fluktuacje, zwłaszcza w dziedzinach humanistycznych społecznych, potrafią sporo zepsuć.* Ewaluacja wpływa za to bezpośrednio na dosyć nonsensownie skonstruowany katalog uprawnień, na przykład:

  • uprawnienia do prowadzenia kierunków studiów,
  • uprawnienia do prowadzenia szkół doktorskich,
  • uprawnienia do nadawania stopni i tytułów naukowych,
  • uprawnienia do zgłaszania kandydatów do różnych ciał doradczych (takich jak Komitet Ewaluacji Nauki).

To wszystko jest bez sensu. Ewaluacja ma oceniać jednostki pod trzema względami: poziomu publikacji, zdobywania środków na badania i komercjalizacji wyników oraz wpływu społecznego. Żaden z nich nie ma klarownego związku przyczynowo-skutkowego z poziomem dydaktyki, poziomem prac doktorskich, rzetelnością procesów awansowych czy poprawnym składem ciał doradczych.

Wszystkie uczelnie zainwestowały krocie w „robienie ewaluacji”. Zatrudniono specjalistów rekomendujących triki takie jak „odpinanie” publikacji, wymyślających opisy wpływu społecznego, a nawet wskazujących, którym pracownikom trzeba wpisać do dorobku fikcyjne publikacje (jak głosi złośliwa plotka). Kupione zostały drogie systemy informatyczne przygotowujące optymalne listy publikacji. Wyasygnowano ogromne pieniądze na nagrody i opłaty za publikowanie w czasopismach, które mają dużo punktów, a jednocześnie są stosunkowo łatwo dostępne. Naukowcy tracą czas na niepotrzebną zupełnie buchalterię punktową. A efekt całego procesu jest tylko taki, że większość jednostek uzyskała ocenę, która absolutnie nic nie zmienia. Ministerialne kategorie nikogo nie obchodzą, dopóki ktoś nie wypadnie z łask ministra (o tym dalej). Mamy więc ogromną inwestycję czasu i pieniędzy w proces, który nie prowadzi do niczego sensownego.

Najważniejszy w ewaluacji jest poziom publikacji, który liczony jest mechanicznie, ale w sposób bardzo skomplikowany. Zależy on przede wszystkim od ministerialnych punktów przyznanych dosyć arbitralnie wydawcom książek oraz, nieco mniej dowolnie, poszczególnym czasopismom naukowym. W tym ostatnim wypadku zależy on w taki lub inny sposób od popularności publikacji w tym czasopiśmie, mierzonych liczbą cytowań w innych publikacjach. Tylko że zarówno punkty za książki, jak i za czasopisma przypominają liczby ogonów.

Od liczby publikacji w popularnych ostatnio megaczasopismach, które mają sztucznie pompowane wskaźniki cytowań takie jak impact factor (które w istocie zależą też od negocjacji wydawców z firmą Clarivate, a nie tylko od liczby cytowań), nie zwiększy się poziom naukowy w Polsce. Gorzej, wskaźnik impact factor jest wysoki w czasopismach, które drukują tylko zaskakujące wyniki badań. Takie wyniki są mniej prawdopodobne niż to, co wiedzieliśmy wcześniej. Nic dziwnego, że jedyną rzeczą, z którą koreluje wysoki poziom impact factor jest niski poziom replikacji, a przypuszczalnie też fałszywość. Z tym wskaźnikiem jest dokładnie tak, jak ze szczurzymi ogonami. A od niego (lub jakiegoś jego wariantu) zależy większość punktów ministerialnych – poza tymi, które poza wszelkimi procedurami dodał minister Czarnek, kierując się tylko interesem parafiańszczyzny w polskiej nauce.

Jak się to ma do uprawnień? Prowadzenie kierunku studiów nie powinno być kwestią zatrudnienia tuzina pracowników z publikacjami w czasopismach o wysokiej liczbie cytowań, tylko odpowiedniego sprawdzenia możliwości prowadzenia rzetelnej dydaktyki przez wyspecjalizowane ciało zajmujące się oceną dydaktyki. Takie istnieje! Po co wyręczać Polską Komisję Akredytacyjną (PKA)? Już dzisiaj są liczne wątpliwości, czy otwierane masowo wydziały lekarskie porządnie wykształcą medyków.

Poziom rozpraw doktorskich czy uczenia w szkole doktorskiej nie zależy od poziomu publikacji w danej jednostce – zajęcia mogą prowadzić bowiem tam osoby w ogóle z innych jednostek, promotorzy mogą być spoza jednostki, a doktoraty przyznawane są przez rady, które nie muszą wcale składać się wyłącznie z osób z danej jednostki. Na przykład w instytutach PAN w naszych radach mamy bardzo wiele osób spoza instytutu. Ich dorobek wcale nie podlega ocenie, promotorami bywają specjaliści z innych uczelni, więc badanie poziomu naszych publikacji lub naszego wpływu społecznego ma luźny związek z poziomem samych rozpraw czy też rzetelnością procesu przyznawania tytułu profesora, który jest i tak nadzorowany w każdym przypadku przez Radę Doskonałości Naukowej (RDN). Niech ktoś pokaże przynajmniej jakąkolwiek korelację między wynikiem ewaluacji a jakością procesu analizy dorobku pojedynczych badawczy starających się o tytuł profesorski, bo na razie jest to mierzenie poziomu populacji wybitych szczurów przez liczenie ogonów.

Uważam, że uprawnienia do prowadzenia szkół doktorskich też powinny zależeć od oceny PKA, a nie od publikacji w jednostce. Dochodzi tu do absurdu: jednostka może nie mieć ani jednego samodzielnego pracownika, który mógłby być promotorem doktoratu, a jednocześnie ocenę co najmniej B+ i uprawnienia do doktoryzacji. Promotorem zaś może być osoba spoza tej jednostki, nawet gdy jest z jednostki z oceną C. Z kolei uprawnienia awansowe powinny zależeć od indywidualnego dorobku osób zaangażowanych w sam proces awansu (i częściowo już i tak zależą, bo recenzentów RDN wyznacza na podstawie kryteriów merytorycznych).

Więc może przynajmniej warto ograniczyć kandydowanie do ciał doradczych? A gdzie tam! Tak naprawdę kandydatki i kandydaci do tych ciał powinny być zgłaszani po prostu w ramach transparentnych procedur konkursowych, a nie dyskrecjonalnych decyzji ministra wybierającego kandydatury zgłoszone przez „najlepsze jednostki”.

Nie znaczy to, że poziom naukowy nie powinien podlegać ocenie. Ale podlega i tak, w ramach procedur awansowych (są przecież dogłębne procesy recenzji, wieloetapowe procedury itd.), recenzji w agencjach grantowych oraz oceny okresowej pracowników naukowych. Przykładem wręcz krzyczącej obłudy zwolenników reformy i nowego procesu ewaluacji było mówienie, że ma ona służyć ocenie jednostek, a nie pracowników. Skąd jednak mają się brać oceniane osiągnięcia, jeśli nie z pracy pracowników? Każdy rozsądny kierownik jednostki powinien kierować się ministerialnymi kryteriami, jeśli chce mieć wysoki wynik w ewaluacji (chociaż ma to równie mały sens, co kolekcjonowanie ogonów). Tymczasem wystarczyłoby wypracować transparentne kryteria okresowych ocen pracowniczych, w porozumieniu ze środowiskiem naukowym oraz związkami zawodowymi, a także określić minimalne wymagania na stanowiskach naukowych, naukowo-dydaktycznych i dydaktycznych, być może z uwzględnieniem specyfiki lokalnej czy danej tradycji badawczej. Pełna centralizacja nie jest tu potrzebna, ale jawność kryteriów i ocenianych wyników naukowych – owszem. Do szczęścia wystarczy nam więc działalność PKA oraz normalne funkcjonowanie jednostek naukowych, razem z raportowaniem wszystkich danych dotyczących wyników oceny w BIP.

Ewaluacja jest zbędnym wydatkiem. To źle wydane pieniądze, które powinny pójść na dofinansowanie NCN oraz pensje dla asystentów i adiunktów, bo niedługo nie będzie komu uczyć. Specjaliści pomagający generować sprawozdania do ewaluacji powinni raczej pomagać w pisaniu i realizacji projektów badawczych, zwłaszcza międzynarodowych.

Piszę to z perspektywy osoby zaangażowanej w spór prawny z MEiN. Rozprawę przed WSA mamy 3 listopada, a od ponad roku jako IFiS PAN walczymy o poprawienie technicznego błędu w danych przekazanych do ministerstwa. Tak, do naszych danych o publikacjach wkradł się błąd, bo informatyczny system ministerialny jest źle skonstruowany. Ale te dane każdy człowiek odczyta poprawnie – błąd jest po stronie ministerstwa, które używa systemów przetwarzania informacji, które nie potrafią rozwiązywać banalnego problemu rozpoznawania obiektów po nazwie (ang. named entity recognition). Ministerstwo upiera się przy swoim, zapewne z powodów politycznych, bo przecież nawet premier był łaskaw twierdzić, że szkalujemy Naród.

Ale tu nie chodzi o nas. Niech ogon nie macha psem. Dajmy spokój z manią nadzoru i mikrozarządzania pracownikami.

UWAGA: Skreślony fragment sprostowałem po dokładniejszej analizie sytuacji i po uwagach prof. Grzegorza Marca (IBL PAN).

Podsumowanie projektu „Kognitywistyka w poszukiwaniu jedności”

Projekt „Kognitywistyka w poszukiwaniu jedności” był interdyscyplinarnym przedsięwzięciem badawczym, którego celem było opracowanie ujęcia unifikacji i integracji w dziedzinie kognitywistyki. Kognitywistyka wykorzystuje narzędzia, metody i koncepcje z różnych dziedzin, co stawia pod znakiem zapytania kwestię unifikacji badań w tej dziedzinie. Projekt zespół stawiał hipotezę, że dzięki różnorodności badania interdyscyplinarne mogą zostać zunifikowane lub zintegrowane.

W projekcie analizowano modele i ramy pojęciowe stosowane w kognitywistyce, w tym teorie ucieleśnionego poznania i przetwarzania predykcyjnego. Jednakże, mimo że były one uważane za teorie unifikacyjne, okazało się, że są one tylko pewnymi wskazówkami do opracowywania zunifikowanych teorii. Projekt skupił się również na historii nauk kognitywnych i analizie pojęciowej.

Zespół projektu składał się z filozofów, psychologów poznawczych i klinicznych, którzy podejmowali badania eksperymentalne. Projekt opierał się na stanowisku neomechanicyzmu, które jest obecnie dominującym stanowiskiem we współczesnej filozofii nauki.

Dzięki projektowi udało się opracować adekwatne opisy integracji i unifikacji, co pozwoliło lepiej uzasadnić normatywne zasady udanej interdyscyplinarnej współpracy naukowej.

Raport merytoryczny z wykonania projektu udostępniamy na naszej stronie. Zawiera on listę najważniejszych publikacji wraz ze wskazaniem poszczególnych wątków naszych badań. Kompletna lista publikacji wraz z odnośnikami dostępna jest na stronie projektu tutaj – ukazało się kilka już po napisaniu raportu, może ukażą się jeszcze dwie.

.pf-button.pf-button-excerpt { display: none; }
Source: Cognitive Science in Search of Unity

Seminarium Filozofia Kognitywistyki: Radical Embodied Cognitive Science

Serdecznie zapraszamy na kolejne posiedzenie ogólnopolskiego Seminarium Filozofia Kognitywistyki IFiS PAN, które odbędzie się dnia 24 czerwca 2019 (poniedziałek) w Pałacu Staszica (ul. Nowy Świat 72, Warszawa) w sali 154 o godz. 11.00. Tym razem gościem seminarium będzie Guilherme Sanches de Oliveira (University of Cincinnati), a przedmiotem dyskusji artykuł jego współautorstwa (pozostali autorzy: Vicente Raja i Antony Chemero) zatytułowany: “Radical Embodied Cognitive Science and ‘Real Cognition’”.

Ponieważ artykuł jest aktualnie w recenzji nie mogliśmy zamieścić go na ogólnodostępnej stronie internetowej – tekst do dyskusji otrzymać można drogą mailową, kontaktując się z dr. Przemysławem Nowakowskim (prrono@wp.pl).

Source: Cognitive Science in Search of Unity