Recenzje – pięta achillesowa systemów oceny

W obecnym systemie prawnym nauki i szkolnictwa wyższego ewaluacja stała się kluczowym elementem układanki. To utrudnia pozbycie się tego zupełnie zbędnego balastu – gdyż proces ten po prostu nie działa. Mamy wręcz jasne świadectwa, że jest szkodliwy dla rozwoju nauki:

Kolejnych publikacji będzie więcej, bo badania trwają lub są opracowywane – pokazują ogromny nakład sił i środków, a jednocześnie tkwimy w dysfunkcjonalnym systemie podziału na dyscypliny, co krótko pokazuje np. Robert Lew.

Dobrze, że trwa dyskusja nad zmianami. Niestety, odpowiedzią na łatwo manipulowalne punkty ministerialne – łatwo manipulowalne zarówno przez polityków, jak i przez nieuczciwych wydawców (polecam lekturę krótkiego tekstu Leszka Wrońskiego i Tomasza Żuradzkiego, jak łatwo dostać się do dziesiątki „najlepszych pism” w filozofii w bazie Scopus) – nie są oceny eksperckie. Mimo że ostatnia propozycja zespołu doradczego do spraw ewaluacji przy prezesie PAN jest lepsza niż obecny system, to ma tę samą wadę.

Jest tak nie dlatego, że eksperci nic nie umieją. Idea jest taka, że do oceny – jakościowej – ma służyć recenzja (peer review). Tylko że sęk w tym, iż recenzowanie jest jednym z najsłabszych ogniw w nauce. Wiemy, że nie można go uznać go za system kontroli jakości, bo recenzenci nie potrafią wyłapać nawet najgrubszych błędów, a często też błędnie rzutują swoje upodobania, rekomendując akceptację lub odrzucenie artykułu. Są na ten temat badania. W najlepszym razie można uznać recenzję za pogłębioną (antagonistyczną) dyskusję naukową, jak argumentuje Stephen Cowley. Co więcej, oceny recenzentów zależą od tego, do jakiego pisma recenzują – zmieniają się standardy oceny, a z badań symulacyjnych widzimy, że tak musi być.

 Wiadomo, że w recenzjach pojawiają się rozmaitego rodzaju nadużycia, typu wymuszone cytowania, rekomendacje niezgodne z analizą treści (klasyczna „negatywna z pozytywną konkluzją” w polskim systemie awansowym), lakoniczne i powierzchowne uwagi itd., itp. Co więcej, istnieje zawsze możliwość konfliktu interesu – na co zresztą wskazuje WSA w wyroku ws. ewaluacji mojego instytutu

Podobnie, jak biegły w przypadku, o którym mowa w tym przepisie, ekspert w procedurze ewaluacji wykonuje funkcję dzielenia się z organem posiadanymi przez siebie wiadomościami specjalnymi. Choć KEN składa się z m.in. przedstawicieli jednostek szkolnictwa wyższego, to jej członkowie nie muszą in gremio posiadać specjalistycznej wiedzy z zakresu wszystkich poszczególnych dyscyplin nauki. Skoro zatem w postępowaniu ewaluacyjnym ekspert wykonuje funkcję biegłego, to na mocy art. 84 § 2 k.p.a. należy do niego stosować art. 24 k.p.a., a zwłaszcza § 3 tego przepisu, który umożliwia stronie złożenie wniosku o wyłączenie od udziału w postępowaniu. W sytuacji, w której strona postępowania nie zna personaliów eksperta, nie może ocenić, czy ekspert podlega wyłączeniu. Nie może również skonfrontować merytorycznych kwalifikacji osoby powołanej do zadań eksperta w zakresie jego udziału w postępowaniu, a mianowicie nie może sprawdzić, czy wskazana przez organ osoba rzeczywiście posiada kwalifikacje gwarantujące, że dysponuje ona wiedzą ekspercką w zakresie związanym z dyscypliną podlegającą ewaluacji.

To wszystko wskazuje, dlaczego coraz więcej instytucji przyjmuje model otwartych recenzji – pozwala to uniknąć manipulacji ich treściami. Wiele czasopism – np. „eLife” w ogóle rezygnuje z recenzji przed publikacją, nie uzależniając decyzji o publikacji od recenzji (chociaż możliwe, że to właśnie doprowadziło do zwiększenia dyskrecjonalnej władzy redaktorów, odrzucających teksty bez recenzji). Są też poważne argumenty, aby w ogóle porzucić system recenzyjny w nauce:

  • Heesen, Remco, i Liam Kofi Bright. „Is Peer Review a Good Idea?” The British Journal for the Philosophy of Science 72, nr 3 (wrzesień 2021): 635–63. https://doi.org/10.1093/bjps/axz029.

Krótko mówiąc, obecny system recenzji w czasopismach ma kilka wad:

  1. Znaczne koszty (czas naukowców): Proces recenzji wymaga wielu godzin pracy recenzentów oraz zaangażowania redaktorów, którzy sami są naukowcami. Czas ten mógłby być przeznaczony na prowadzenie badań naukowych.
  2. Opóźnienia w publikacji: Recenzja przed publikacją często powoduje znaczne opóźnienia w udostępnianiu wyników badań, co hamuje postęp naukowy i może prowadzić do niepotrzebnego powielania pracy przez innych naukowców.
  3. Niska skuteczność w wykrywaniu oszustw i błędów: Recenzja przed publikacją nie jest skutecznym narzędziem do wykrywania oszustw naukowych ani błędów metodologicznych. Wielu prominentnych przypadków oszustw przeszło przez proces recenzji niezauważone.
  4. Niska zgodność między recenzentami: Badania pokazują, że istnieje niska spójność ocen między recenzentami. To oznacza, że oceny recenzentów są często niespójne i subiektywne, co podważa wiarygodność procesu recenzji.
  5. Tendencyjność: Recenzje przed publikacją mogą być tendencyjne; w grę wchodzą uprzedzenia związane z płcią (kobiety np. piszą bardziej odpowiedzialne wnioski grantowe, które są gorzej oceniane), statusem instytucji czy też osobistymi preferencjami recenzentów.
  6. Wzmacnianie efektu św. Mateusza: Proces recenzji może zwiększać efekt Mateusza, gdzie bardziej znani naukowcy otrzymują więcej uwagi i zasobów, niezależnie od rzeczywistej wartości ich pracy, co prowadzi do niesprawiedliwości w alokacji zasobów naukowych. (Eksperyment z publikacjami Kapeli Pilaki to ładnie potwierdził).
  7. Wysokie koszty subskrypcji czasopism: Koszty związane z subskrypcją czasopism naukowych są znaczące. Zniesienie recenzji przed publikacją mogłoby zmniejszyć te koszty, poprzez przejście na model otwartego dostępu.
  8. Brak dowodów na poprawę jakości nauki: Dowody empiryczne nie potwierdzają, że recenzja przed publikacją znacząco poprawia jakość nauki. W rzeczywistości, korzyści przypisywane temu systemowi są często niejasne lub nieistniejące.
  9. Straty w potencjale innowacyjnym: System recenzji przed publikacją może zniechęcać do podejmowania ryzykownych, innowacyjnych badań, ponieważ naukowcy mogą obawiać się odrzucenia przez recenzentów preferujących bardziej konserwatywne podejście.

Do czego to obecnie prowadzi? Z jednej strony innowacyjne badania często ukazują się tylko w formie preprintów (co też wcale dobre nie jest, bo wtedy część z nich unika w ogóle zrecenzowania). Z drugiej strony – są prowadzone różne eksperymenty z reformą procesu recenzowania.

A gdybyśmy na to popatrzyli z perspektywy teorii pomiaru, to proces recenzji musiałby mieć dwie podstawowe cechy. Poprawne pomiary muszą być precyzyjne, zbieżne i trafne (Isaac, 2019). O precyzji świadczy to, że wielokrotnie wykonywane procedury pomiarowe konsekwentnie dają te same wyniki (w zbliżonych granicach błędu). Znacznie jednak bardziej skomplikowane jest osiągnięcie zbieżności, która polega na uzyskiwaniu tego samego wyniku za pomocą różnych procedur. W przypadku recenzji rzecz w tym, że ten sam recenzent musiałby tak samo ocenić tekst w różnych momentach. Nie wiemy, jak to kształtuje się w rzeczywistości, bo publikowane otwarte recenzje zwykle nie obejmują tekstów odrzuconych – a liczba dostępnych recenzji rekomendujących odrzucenie jest nikła, ale z doświadczenia redaktorskiego (m.in. siedem lat jako Associate Editor w „European Journal for Philosophy of Science”) wiem, że recenzentom często odmienia się zdanie – i nie wiadomo dlaczego. Natomiast zbieżność… Wszyscy wiemy, że zgodność między recenzjami (punkt 4) jest bardzo rzadka i wcale nie musi świadczyć o trafności recenzji. 

W przypadku systemu ewaluacji musielibyśmy mieć pewność, że recenzje będą precyzyjne i zbieżne. W niektórych agencjach czy programach grantowych wprowadza się np. dokładne opisy tego, co recenzent ma ocenić, co ułatwia uzyskanie stosunkowo wysokiej zbieżności i precyzji. Bez konkretnych wytycznych kończy się to niską spójnością ferowanych ocen. A trafność recenzji osób, które są przeciążone i dostają ogromną liczbę tekstów do oceny, jest wątpliwa.

Chciałem nawet tę spójność wyliczyć dla decyzji w poprzedniej ewaluacji. To nie jest żadna wielka filozofia. Ale oczywiście, w naszej ewaluacji wszystko jest tajne i poufne, więc odmówiono mi dostępu nawet do uzasadnień decyzji podejmowanych przez ekspertów. Znam tylko bardzo skrzywiony rozkład decyzji o odrzuceniach osiągnięć – filozofowie okazali się wyjątkowo dużą chęcią odrzucania, prawnicy kanoniczni – żadną.

Mam więc ogromne wątpliwości, czy można liczyć na rzetelność recenzentów. Zagraniczni recenzenci też będą tendencyjni, bo będą dopasowywać się do wyimaginowanych standardów (o których nikt nigdy explicite dokładnie nie informuje) w Polsce – dokładnie jak w badaniach symulacyjnych, pokazujących, jak impact factor kształtuje ocenę tekstu. Żeby to zapewnić, system musiałby być bardzo, ale to bardzo dokładnie przemyślany i transparentny. A to będzie kosztować.

Czy warto? Oczywiście, że nie warto.

Słownik bestsellerem nr 1

W księgarni ebookpoint nasz słownik w styczniu wspiął się na szczyt listy bestsellerów!

Zrzut ekranu z listy bestellerów w księgarni ebookpoint

Wyprzedziliśmy nawet najnowszą książkę Remigiusza Mroza, ale podobno za tydzień ma napisać większy słownik od naszego.

Zgodnie z obietnicami nasz słownik jest dynamiczny. Właśnie przygotowujemy uaktualnioną wersję słownika – będzie ona dostępna bezpłatnie dla dotychczasowych klientów księgarni ebookpoint. Dzisiaj wskoczyło pięć nowych haseł do naszego systemu leksykograficznego: backpropagation, foundation model, gradient descent learning, large language model i prompt engineering (oraz nowe znaczenie w haśle prompt), bo trzeba przecież uwzględnić rozwój i upowszechnianie się narzędzi sztucznej inteligencji:

Nowe hasła ze słownika w systemie SIL Fieldworks: backpropagation, foundation model, gradient descent learning, large language model i prompt

Uruchomiłem też możliwość zgłaszania usterek czy pomyłek w słowniku przez specjalny formularz. Można zgłosić brakujące hasła, literówki lub inne dziwadełka. Moi koledzy-leksykografowie pieszczotliwie nazywają je „fąframi” – to osobliwe hasła w słowniku, których pochodzenia nie jest w stanie nikt dojść. W słownikach języka polskiego takim hasłem jest „sajerz”, a u nas… No cóż, właśnie skasowałem bardzo dziwne hasło map of the Iraq. Może je wpisał jakiś tajny agent?

Mam już też przygotowaną wersję słownika na czytniki PocketBook, ale posiadane przeze mnie urządzenie musiało pójść do serwisu, więc nie mogłem w pełni jej przetestować przed wprowadzeniem do sprzedaży. Ale serwis już skończył pracę, więc za kilka dni powinno się udać sprawdzić, czy wszystko gra.

A w dalszych planach – wersja do systemu Android (też na czytniki książek), a potem iOS. Aplikacje będą płatne, ale za to całkowicie offline, bez jakichkolwiek reklam i śledzenia użytkowników, a także z dożywotnią aktualizacją (dopóki wielkie korporacje nie postanowią inaczej, tak jak spotkało nas to w Amazonie). Słowniki nie są od tego, żeby być tablicami reklamowymi i narzędziami szpiegowskimi.

Wielki słownik angielsko-polski wraca na czytniki Kindle

Zapraszamy do odkrycia naszego „Wielkiego słownika angielsko-polskiego” w najnowszym wydaniu w księgarni ebookpoint.

To nie tylko największy tego typu słownik na świecie, ale też najbardziej aktualny i wszechstronny. Zawiera on imponującą liczbę 1,8 miliona wyrazów, obejmujących kilkaset tysięcy znaczeń w ramach ponad dwustu tysięcy definicji. To oznacza, że nasz słownik przekracza zakres największych wcześniej wydanych słowników o ponad 20%.

Ale to nie tylko liczba haseł świadczy o wyjątkowości tego projektu. Wyróżnia się on słownictwem specjalistycznym z ponad 150 dziedzin, w tym zwłaszcza biznesu i finansów. Dzięki współpracy z wybitnym specjalistą w tej dziedzinie, Romanem Kozierkiewiczem, nasz słownik jest nie tylko największy, ale również najbardziej kompleksowy.

Nasz słownik jest jedynym wielkim słownikiem angielsko-polskim, który uwzględnia słownictwo XXI wieku. Staraliśmy się zachować równowagę pomiędzy słownictwem brytyjskim a amerykańskim, uwzględniając oczywiście także w pewnym stopniu pozostałe odmiany języka angielskiego. Odmianę brytyjską, obowiązującą przecież także w oficjalnej angielszczyźnie Unii Europejskiej, potraktowaliśmy jako podstawową.

Nasz słownik jest nie tylko gigantyczny, ale również dynamiczny. Jego zasoby są rozwijane i uzupełniane. Wersja z poprawkami dokonanymi już w styczniu 2024 roku zawiera poprawki do ponad 10 tysięcy haseł w porównaniu do poprzedniej aktualizacji w styczniu 2022 roku. Planujemy dalszą pracę nad tym słownikiem, a kolejne wersje będą dostępne bezpłatnie dla wszystkich nowych nabywców z księgarni Ebookpoint.

Funkcje słownikowe dostępne są wyłącznie w urządzeniach Kindle lub w oprogramowaniu Kindle. Nie będą działać poprawnie na innych czytnikach; plik otworzy się w postaci zwykłej książki.


Prof. dr hab. Dariusz Jemielniak, Akademia Leona Koźmińskiego
Dr hab. Marcin Miłkowski, prof. IFiS PAN, Instytut Filozofii i Socjologii PAN

Punkty jak kiełbasa

Prawo nakazuje ministrowi ustalać procedury ewaluacji nauki z uwzględnieniem jej rzetelności i przejrzystości. W praktyce jednak ministerstwo postępowało według zasady, że lepiej nie wiedzieć, z czego robi się kiełbasę. Troszcząc się o nasze dobre samopoczucie, ministerstwo chciało ograniczyć wiedzę opinii publicznej i naukowców o tym, jak ocenia się ich pracę. A przynajmniej takie odnieść można wrażenie.

kiełbasy pełne artykułów naukowych

Pełna jawność decyzji, wraz z uzasadnieniami i nazwiskami osób je podejmujących, to warunek konieczny dla poprawy jakości ewaluacji nauki. Powinno się też zapewnić możliwość zgłaszania błędów i odwoływania się od decyzji. Dotyczy to zwłaszcza wykazów publikacji punktowanych. Nie ma sensu ukrywać uzasadnień rekomendujących zmiany punktacji – jeśli są one błędne, to trzeba je anulować lub poprawić. Każda komisja może się przecież pomylić, zwłaszcza przy ogromie współczesnej produkcji naukowej.

Gdy pracowaliśmy nad eksperckimi listami czasopism – byłem wtedy w komisji dla filozofii – ministerstwo wysłało nam wiadomość: „po dniu 15 maja 2019 r. udostępnianie oraz wykorzystywanie do innych celów wszelkich posiadanych zbiorów odnośnie prac związanych z tworzeniem listy czasopism jest uznawane za niedopuszczalne. Dokumenty tego rodzaju, będące w posiadaniu członków ww. zespołów doradczych, powinny zostać zutylizowane”. Minister mógł oczywiście odmówić udostępnienia informacji o działaniu zespołów doradczych (art. 381. 2 ustawy) – nie była ona uznawana za informację publiczną. Ale jak to się ma do przejrzystości ewaluacji nauki?

Komisje miały możliwość uwzględniać nie tylko wskaźniki bibliometryczne, ale musiały dokładnie uzasadniać swoje decyzje i rekomendacje. Przygotowywaliśmy te uzasadnienia, choć mieliśmy na to skandalicznie mało czasu (poprzednia władza miała obsesję na punkcie pośpiechu i pracy po godzinach). Nie widzę żadnych przeszkód, żeby podpisać się pod naszymi decyzjami. Nie rozumiem też, dlaczego nie można ich upublicznić. My się ich nie wstydzimy. 

Oczywiście, eksperci mogą być narażeni na naciski – ale czy ukrywanie tożsamości ekspertów to nie jest nadmierna ostrożność? Przecież są oni znani w przewodach awansowych, gdzie podpisują się pod swoimi recenzjami. Jeśli decyzje będą jawne i podpisane przez konkretne osoby, to i tak ważniejsza będzie treść uzasadnień niż nazwisko. 

W dzisiejszych czasach toczy się wiele debat na temat roli recenzji w systemie publikacji naukowych. Próbuje się różnych metod – od pełnej anonimizacji (zarówno autora, jak i recenzenta) po pełną jawność (wszystkie dane są znane). Jednak gdy chodzi o ocenę już istniejących czasopism lub zgłoszonych osiągnięć, pełna anonimizacja jest niemożliwa. Pozostaje więc częściowa anonimizacja, ale tu nie ma sensu jej stosować. Kategoryzacja jednostek to kwestia administracyjna, a taka powinna być rozstrzygana w sposób jak najkorzystniejszy dla ocenianych – to nie jest egzamin ani konkurs grantowy. Filozof powiedziałby, że organ oceniający musi kierować się zasadą życzliwości w interpretacji, a jej naruszenie jest niezgodne z kodeksem postępowania administracyjnego. A jeśli eksperci będą zbyt życzliwi wobec niektórych czasopism, to zaraz wyjdzie to na jaw. Tymczasem nie wiemy, dlaczego tak potworne czasopisma, jak „Pedagogika Katolicka”, otrzymują 200 punktów. Chciałbym zobaczyć uzasadnienie – które nie może przecież trzymać się kupy i mogłoby być szybko obalone jako wadliwe.

Po 2019 roku było już tylko gorzej. Nie powoływano już zespołów eksperckich i nie udzielano żadnych informacji uzasadniających wysokość przyznanych punktów. Nie wiadomo było, do kogo zwracać się z prośbą o uwzględnienie lub zmianę na liście i jakie kryteria decydowały o coraz dziwniejszych zmianach w wykazach.

Ministerstwo nie przestrzegało zasad przejrzystości. Po zakończeniu ewaluacji MEiN udostępniło niektóre dane z systemu POL-on, np. wykazy osiągnięć zgłoszonych do ewaluacji w kilku dyscyplinach czy statystyki odrzuconych osiągnięć, ale nie chciało ujawniać kluczowych informacji – czyli ocen eksperckich wraz z uzasadnieniami. A przecież zobaczenie niespójności ocen między ekspertami – co jest nieuchronne w każdym takim procesie – mogłoby pomóc ulepszyć prawo, ale też wykryć ewentualne błędy w decyzjach. Chciałem obliczyć współczynnik kappa Cohena, aby sprawdzić jakość instrukcji przekazanych ekspertom. Bez danych nie mogę.

Nie wiem, na podstawie jakich przepisów powołano ekspertów oceniających osiągnięcia – byli ekspertami Komisji Ewaluacji Naukowej, a nie ministra, więc może lista ekspertów i ich oceny nie mogą być zatajone na podstawie artykułu 381 ustawy. W każdym razie nawet jeśli prawo pozwala na nieudostępnianie tych „dokumentów wewnętrznych” (choć nie jest to zgodne z rozumną interpretacją przepisu o rzetelności i przejrzystości procesu ewaluacji), to naczelniczka departamentu Nauki w MEiN na pytanie sędziego sprawozdawcy w Wojewódzkim Sądzie Administracyjnym (3 listopada 2023, rozprawa ws. skargi mojego instytutu) przyznała, że nie ma podstawy prawnej do ukrywania tożsamości ekspertów, a jest to jedynie zwyczaj.

Nie mamy dostępu do informacji publicznych dotyczących decyzji o skutkach finansowych badań naukowych lub prac rozwojowych. Nie udostępnia się ich, powołując się na przepisy o tajemnicy przedsiębiorstwa – bo ich ujawnienie mogłoby rzekomo prowadzić do nieuczciwej konkurencji. Tak, według tej interpretacji udostępnienie danych o grantach badawczych finansowanych ze środków publicznych, zarówno krajowych, jak i międzynarodowych, mogłoby naruszać tajemnicę… przedsiębiorcy. Może to mieć sens, gdy politechnika ma udziały w startupie, do którego wnosi know-how i z którego czerpie zyski. Ale w naukach humanistycznych i społecznych takie tłumaczenie jest absurdalne. Tymczasem ocena w kryterium II dotyczy właśnie tego – i jest ona porównawcza. Ani obywatele, ani jednostki naukowe nie mają prawa się niczego dowiedzieć na ten temat, chociaż na tej podstawie przyznaje się kategorię naukową. To skandaliczne.

Mój instytut wystąpił też o udostępnienie kodu źródłowego lub przynajmniej matematycznej specyfikacji algorytmu służącego do optymalizacji osiągnięć – czyli tworzenia wykazu najlepszych publikacji przeznaczonych do oceny. Nie tylko odpowiedziano nam, że nie wiadomo, co oznacza użyty przez nas termin „matematyczna specyfikacja”, ale też oczywiście odmówiono dostępu do kodu źródłowego. A o ile wiem, nikomu ściśle nie udało się odtworzyć wyników uzyskiwanych przez OPI przy generowaniu wykazów. Sama natura problemu wskazuje, że zapewne stosowany musi być jakiś algorytm przybliżający (przypuszczalnie problem, który realizuje OPI, jest znany w informatyce jako tzw. problem plecakowy – o bardzo dużej złożoności obliczeniowej, więc nie da się go wprost poprawnie rozwiązać z powodu jego trudności). Gdyby decyzje dotyczyły osób, to standardy RODO wymagałyby ujawnienia szczegółów. Niestety, w przypadku decyzji dotyczących osób prawnych – które w polskim prawie nie mogą być podejmowane przez algorytm, swoją drogą – nie mamy zasady obligatoryjnego dostępu do algorytmu podejmującego decyzje. A szkoda!

Ministerstwo nie tylko zataja informacje, ale też czasem zaniedbuje ich zbieranie. Wszystkie informacje o publikacjach naukowych muszą być zgłaszane do Polskiej Bibliografii Naukowej (PBN). To dziwny system bibliografii narodowej, gdzie to jednostki same mają być bibliotekarzami – ponieważ podstawową ideą ewaluacji jest to, żeby było tanio, zamiast zatrudniać fachowców, wymaga się poprawnych danych od użytkowników. To oczywiście mrzonka, bo dane nigdy nie są idealnie czyste. Muszą się pojawiać powtórzenia i nieścisłości. Najgorsze jest jednak to, że dane te są co jakiś czas automatycznie ujednolicane. To niby udogodnienie, ale… system nie informuje, jakie informacje się zmieniają.

A jeśli jakaś publikacja ma współautorów z kilku ośrodków, to może zacząć się wojna edycyjna. Sam widziałem wpisy w PBN z ponad 50 zmianami – istna zabawa w „strzyżono – golono”. Niestety, PBN nie udostępnia informacji, co zostaje zmienione. Co najwyżej widać, że coś zostało zmienione. System bowiem nie przechowuje informacji o konkretnych zmianach (co potwierdzono w odpowiedzi na mój wniosek o udostępnienie informacji publicznej na temat PBN), co jest kuriozalne. To tak jakby Wikipedia nie miała historii edycji pokazującej zmiany poszczególnych fragmentów artykułów, a jedynie pokazywała identyfikatory użytkowników i daty edycji. Zgroza. Nic dziwnego, że uczelnie wolą kupować specjalistyczne systemy do analizy danych z PBN i wprowadzania tam masowych poprawek, takie jak Omega PSIR.

System PBN nie daje możliwości korzystania z jego danych przez publiczne otwarte API. To znaczy, że tylko osoby uprawnione w jednostkach naukowych mogą mieć do nich dostęp i je edytować. To ogranicza potencjał ogromnej bazy danych, która mogłaby być wykorzystana w innowacyjnych aplikacjach dla naukowców (teraz z API korzystają tylko systemy do zarządzania bibliografiami jednostek).  A tak naprawdę wdrożenie tego to kwestia paru dni pracy. 

Przejrzystość jest też potrzebna do wykorzystania publicznie zbieranych danych. Gdyby PBN był lepiej dostępny, z publicznym API, to można by zrobić semantyczną wyszukiwarkę polskich publikacji – w każdym języku! – z użyciem nowoczesnych technik przetwarzania języka. Teraz łatwiej znaleźć informacje z Google Scholar czy Semantic Scholar o nowych artykułach z Nowej Zelandii, niż o nowej książce po polsku z Krakowa. Może ktoś by nawet stworzył system liczący cytowania z polskich publikacji, bo ministerstwo nie dało rady. Chyba że bało się prawdy.

Jeśli mamy utrzymać tego potwora, jaką jest ewaluacja (chociaż uważam, że powinna zostać w pełni zlikwidowana, bo jest źródłem degrengolady), to musimy dbać o przejrzystość. Ministerstwo powinno zagwarantować:

  • pełną jawność i pełne umocowanie w prawie kryteriów podejmowanych decyzji,
  • pełną jawność podstaw wszystkich podejmowanych decyzji,
  • pełną jawność ekspertów podejmujących decyzje,
  • powszechną dostępność procedur odwoławczych,
  • pełen dostęp do wszystkich informacji publicznych, być może z wyłączeniem tych informacji, które dotyczą niepublicznych podmiotów, które rzeczywiście prowadzą działalność gospodarczą.

Bez przejrzystości trudno oceniać wyniki reform. Teraz naprawdę nie wiemy, jakie są skutki reform ministra Gowina. Z własnego doświadczenia – potwierdzonego ostatnio wyrokiem sądu administracyjnego – widzę, że ewaluacja była przeprowadzana z pogwałceniem prawa i zdrowego rozsądku, z jakąś urzędniczą żarliwością do wynajdywania błędów i niechęcią do kontaktu z ocenianymi. Ale czy tak traktowano wszystkich, czy też wyłącznie jednostki naukowe oskarżane przez politruków o szkalowanie Narodu?

Koniec ze zbieraniem szczurzych ogonów

Francuska administracja kolonialna liczy ogony szczurów

Marcin Miłkowski

Wkrótce nastąpi zmiana ministra odpowiedzialnego za naukę i szkolnictwo wyższe. Dlatego właśnie teraz warto wrócić do sprawy oceny jednostek naukowych, zwanej w biurokratycznej nowomowie „ewaluacją”. Wiele osób zwraca uwagę, że w tej ocenie dochodzi do nieprawidłowości, spodowowanych chociażby podwyższaniem przez ministra Czarnka punktacji lokalnym czasopismom o dosyć wątpliwej naukowej renomie. Tylko że próby naprawy są bezcelowe.

Ewaluacja jest niepotrzebna, droga, a w ostatecznym rozrachunku szkodliwa.

W 1902 roku w Hanoi była dżuma. Francuskie władze kolonialne postanowiły zwalczyć epidemię, wybijając szczury. Sami nie dali rady. Poprosili o pomoc mieszkańców. Ponieważ administracja nie chciała gromadzić ciał zakażonych dżumą szczurów, dawano nagrody za zbieranie samych ogonów na dowód zabicia szczura. Już wkrótce na ulicach miasta paradowały szczury z obciętymi ogonami. Dalej się rozmnażały, zwiększając zyski zbieraczy ogonów. Na papierze sukces, w rzeczywistości dżuma.

Ewaluacja jest zbieraniem szczurzych ogonów. Są dwa obozy: zwolennicy skomplikowanych obliczeń na ogonach zgodnie z międzynarodowymi standardami ogonoznawstwa oraz zwolennicy eksperckiego analizowania ogonów. Oba podejścia są błędne.

Rzecz w tym, że ewaluacja nie ma sensu, gdy weźmiemy pod uwagę koszty w stosunku do uzyskiwanych celów. Nie ma ona bowiem bezpośredniego wpływu na poziom finansowania ocenianych jednostek. Ten nigdzie wprost nie został uzależniony od wyniku oceny, bo zdarzały się wygrane jednostek naukowych w sądzie, a ministerstwo nie chciało wyrównywać błędnie zaniżonego poziomu subwencji. Być może ministerstwo bierze wyniki ewaluacji pod uwagę przy przydzielaniu subwencji, ale nie wiadomo jak. Jest to całkowicie nieprzejrzyste, nawet wtedy, gdy jednostka naukowa ma ocenę negatywną – wiadomo tylko, że ma mieć mniejsze dofinansowanie.

Wyniki ewaluacji nie mają wcale dominującego wpływu na poziom finansowania ocenianych jednostek. W przypadku uczelni nieznacznie modyfikuje ¼ części zmiennej subwencji (stanowiącej docelowo 75% całej subwencji), zależącej przede wszystkim od poziomu zatrudnienia na etatach badawczych, a znaczna obniżka występuje tylko przy uzyskaniu kategorii C (rzadkość). Nieco gorzej jest w przypadku instytutów PAN, które mają osobowość prawną i są dosyć małe – tu niewielkie nawet fluktuacje, zwłaszcza w dziedzinach humanistycznych społecznych, potrafią sporo zepsuć.* Ewaluacja wpływa za to bezpośrednio na dosyć nonsensownie skonstruowany katalog uprawnień, na przykład:

  • uprawnienia do prowadzenia kierunków studiów,
  • uprawnienia do prowadzenia szkół doktorskich,
  • uprawnienia do nadawania stopni i tytułów naukowych,
  • uprawnienia do zgłaszania kandydatów do różnych ciał doradczych (takich jak Komitet Ewaluacji Nauki).

To wszystko jest bez sensu. Ewaluacja ma oceniać jednostki pod trzema względami: poziomu publikacji, zdobywania środków na badania i komercjalizacji wyników oraz wpływu społecznego. Żaden z nich nie ma klarownego związku przyczynowo-skutkowego z poziomem dydaktyki, poziomem prac doktorskich, rzetelnością procesów awansowych czy poprawnym składem ciał doradczych.

Wszystkie uczelnie zainwestowały krocie w „robienie ewaluacji”. Zatrudniono specjalistów rekomendujących triki takie jak „odpinanie” publikacji, wymyślających opisy wpływu społecznego, a nawet wskazujących, którym pracownikom trzeba wpisać do dorobku fikcyjne publikacje (jak głosi złośliwa plotka). Kupione zostały drogie systemy informatyczne przygotowujące optymalne listy publikacji. Wyasygnowano ogromne pieniądze na nagrody i opłaty za publikowanie w czasopismach, które mają dużo punktów, a jednocześnie są stosunkowo łatwo dostępne. Naukowcy tracą czas na niepotrzebną zupełnie buchalterię punktową. A efekt całego procesu jest tylko taki, że większość jednostek uzyskała ocenę, która absolutnie nic nie zmienia. Ministerialne kategorie nikogo nie obchodzą, dopóki ktoś nie wypadnie z łask ministra (o tym dalej). Mamy więc ogromną inwestycję czasu i pieniędzy w proces, który nie prowadzi do niczego sensownego.

Najważniejszy w ewaluacji jest poziom publikacji, który liczony jest mechanicznie, ale w sposób bardzo skomplikowany. Zależy on przede wszystkim od ministerialnych punktów przyznanych dosyć arbitralnie wydawcom książek oraz, nieco mniej dowolnie, poszczególnym czasopismom naukowym. W tym ostatnim wypadku zależy on w taki lub inny sposób od popularności publikacji w tym czasopiśmie, mierzonych liczbą cytowań w innych publikacjach. Tylko że zarówno punkty za książki, jak i za czasopisma przypominają liczby ogonów.

Od liczby publikacji w popularnych ostatnio megaczasopismach, które mają sztucznie pompowane wskaźniki cytowań takie jak impact factor (które w istocie zależą też od negocjacji wydawców z firmą Clarivate, a nie tylko od liczby cytowań), nie zwiększy się poziom naukowy w Polsce. Gorzej, wskaźnik impact factor jest wysoki w czasopismach, które drukują tylko zaskakujące wyniki badań. Takie wyniki są mniej prawdopodobne niż to, co wiedzieliśmy wcześniej. Nic dziwnego, że jedyną rzeczą, z którą koreluje wysoki poziom impact factor jest niski poziom replikacji, a przypuszczalnie też fałszywość. Z tym wskaźnikiem jest dokładnie tak, jak ze szczurzymi ogonami. A od niego (lub jakiegoś jego wariantu) zależy większość punktów ministerialnych – poza tymi, które poza wszelkimi procedurami dodał minister Czarnek, kierując się tylko interesem parafiańszczyzny w polskiej nauce.

Jak się to ma do uprawnień? Prowadzenie kierunku studiów nie powinno być kwestią zatrudnienia tuzina pracowników z publikacjami w czasopismach o wysokiej liczbie cytowań, tylko odpowiedniego sprawdzenia możliwości prowadzenia rzetelnej dydaktyki przez wyspecjalizowane ciało zajmujące się oceną dydaktyki. Takie istnieje! Po co wyręczać Polską Komisję Akredytacyjną (PKA)? Już dzisiaj są liczne wątpliwości, czy otwierane masowo wydziały lekarskie porządnie wykształcą medyków.

Poziom rozpraw doktorskich czy uczenia w szkole doktorskiej nie zależy od poziomu publikacji w danej jednostce – zajęcia mogą prowadzić bowiem tam osoby w ogóle z innych jednostek, promotorzy mogą być spoza jednostki, a doktoraty przyznawane są przez rady, które nie muszą wcale składać się wyłącznie z osób z danej jednostki. Na przykład w instytutach PAN w naszych radach mamy bardzo wiele osób spoza instytutu. Ich dorobek wcale nie podlega ocenie, promotorami bywają specjaliści z innych uczelni, więc badanie poziomu naszych publikacji lub naszego wpływu społecznego ma luźny związek z poziomem samych rozpraw czy też rzetelnością procesu przyznawania tytułu profesora, który jest i tak nadzorowany w każdym przypadku przez Radę Doskonałości Naukowej (RDN). Niech ktoś pokaże przynajmniej jakąkolwiek korelację między wynikiem ewaluacji a jakością procesu analizy dorobku pojedynczych badawczy starających się o tytuł profesorski, bo na razie jest to mierzenie poziomu populacji wybitych szczurów przez liczenie ogonów.

Uważam, że uprawnienia do prowadzenia szkół doktorskich też powinny zależeć od oceny PKA, a nie od publikacji w jednostce. Dochodzi tu do absurdu: jednostka może nie mieć ani jednego samodzielnego pracownika, który mógłby być promotorem doktoratu, a jednocześnie ocenę co najmniej B+ i uprawnienia do doktoryzacji. Promotorem zaś może być osoba spoza tej jednostki, nawet gdy jest z jednostki z oceną C. Z kolei uprawnienia awansowe powinny zależeć od indywidualnego dorobku osób zaangażowanych w sam proces awansu (i częściowo już i tak zależą, bo recenzentów RDN wyznacza na podstawie kryteriów merytorycznych).

Więc może przynajmniej warto ograniczyć kandydowanie do ciał doradczych? A gdzie tam! Tak naprawdę kandydatki i kandydaci do tych ciał powinny być zgłaszani po prostu w ramach transparentnych procedur konkursowych, a nie dyskrecjonalnych decyzji ministra wybierającego kandydatury zgłoszone przez „najlepsze jednostki”.

Nie znaczy to, że poziom naukowy nie powinien podlegać ocenie. Ale podlega i tak, w ramach procedur awansowych (są przecież dogłębne procesy recenzji, wieloetapowe procedury itd.), recenzji w agencjach grantowych oraz oceny okresowej pracowników naukowych. Przykładem wręcz krzyczącej obłudy zwolenników reformy i nowego procesu ewaluacji było mówienie, że ma ona służyć ocenie jednostek, a nie pracowników. Skąd jednak mają się brać oceniane osiągnięcia, jeśli nie z pracy pracowników? Każdy rozsądny kierownik jednostki powinien kierować się ministerialnymi kryteriami, jeśli chce mieć wysoki wynik w ewaluacji (chociaż ma to równie mały sens, co kolekcjonowanie ogonów). Tymczasem wystarczyłoby wypracować transparentne kryteria okresowych ocen pracowniczych, w porozumieniu ze środowiskiem naukowym oraz związkami zawodowymi, a także określić minimalne wymagania na stanowiskach naukowych, naukowo-dydaktycznych i dydaktycznych, być może z uwzględnieniem specyfiki lokalnej czy danej tradycji badawczej. Pełna centralizacja nie jest tu potrzebna, ale jawność kryteriów i ocenianych wyników naukowych – owszem. Do szczęścia wystarczy nam więc działalność PKA oraz normalne funkcjonowanie jednostek naukowych, razem z raportowaniem wszystkich danych dotyczących wyników oceny w BIP.

Ewaluacja jest zbędnym wydatkiem. To źle wydane pieniądze, które powinny pójść na dofinansowanie NCN oraz pensje dla asystentów i adiunktów, bo niedługo nie będzie komu uczyć. Specjaliści pomagający generować sprawozdania do ewaluacji powinni raczej pomagać w pisaniu i realizacji projektów badawczych, zwłaszcza międzynarodowych.

Piszę to z perspektywy osoby zaangażowanej w spór prawny z MEiN. Rozprawę przed WSA mamy 3 listopada, a od ponad roku jako IFiS PAN walczymy o poprawienie technicznego błędu w danych przekazanych do ministerstwa. Tak, do naszych danych o publikacjach wkradł się błąd, bo informatyczny system ministerialny jest źle skonstruowany. Ale te dane każdy człowiek odczyta poprawnie – błąd jest po stronie ministerstwa, które używa systemów przetwarzania informacji, które nie potrafią rozwiązywać banalnego problemu rozpoznawania obiektów po nazwie (ang. named entity recognition). Ministerstwo upiera się przy swoim, zapewne z powodów politycznych, bo przecież nawet premier był łaskaw twierdzić, że szkalujemy Naród.

Ale tu nie chodzi o nas. Niech ogon nie macha psem. Dajmy spokój z manią nadzoru i mikrozarządzania pracownikami.

UWAGA: Skreślony fragment sprostowałem po dokładniejszej analizie sytuacji i po uwagach prof. Grzegorza Marca (IBL PAN).

Problemy z replikacją w neuronauce obliczeniowej

Nie sposób przecenić znaczenia replikacji badań, czyli powtarzania procedury badawczej w celu sprawdzenia, czy wynik jest powtarzalny. Umożliwia weryfikowanie wcześniejszych wyników i wyciąganych z nich wniosków. Pomaga również w określeniu, jaki jest zakres opisywanego zjawiska. A także odkryciu oszustw naukowych. Niestety, analizy badań z różnych dziedzin pokazują, że nie jest to bynajmniej łatwe. Mnożą się wątpliwości, czy replikacje mają rzeczywistą wartość poznawczą, czy wszystko da się zreplikować oraz jak takie replikacje ocenić.

Mimo wszystko sądzimy, że odpowiedź na pytanie „czy warto replikować?” jest jednoznacznie pozytywna. Jednak odpowiedź na pytanie „jak replikować?” nie jest już taka prosta. Temu drugiemu badaniu poświęcony został artykuł Marcina Miłkowskiego, Witolda Hensela i Mateusza Hohola Replicability or reproducibility? On the replication crisis in computational neuroscience and sharing only relevant detail (opublikowany w otwartym dostępie w „Journal for Computational Neuroscience”) oraz wystąpienie Mateusza Hohola „Kryzys w badaniach nad mózgiem i umysłem?”.

Terminologia związana z powtarzaniem badań zależy od dziedziny nauki. W neuronauce obliczeniowej rozróżnić można:

  • powtarzanie,
  • replikację
  • i reprodukcję.

Powtarzanie występuje wtedy, gdy badacz stara się powtórzyć własne rezultaty przy użyciu tych samych narzędzi. Z replikacją mamy do czynienia, gdy niezależni badacze pracują nad danym zagadnieniem używając tego samego oprogramowania. Przy reprodukcji zaś niezależni badacze pracują na innym oprogramowaniu. By replikacja lub reprodukcja mogły być przeprowadzone, potrzebne jest udostępnienie przez zespół badawczy odpowiednich do tego informacji. Od pracy w neuronauce obliczeniowej oczekuje się reprodukowalności (rekonstrukcji symulacji na podstawie podanych parametrów). Nasze pilotażowe analizy publikacji z różnych dziedzin, w tym neuronauki obliczeniowej, pokazały, że wiele artykułów nie umożliwia zebrania informacji niezbędnych do powtórzenia tych badań. Co więcej, nie każde informacje podawane w artykułach pomagają kolejnym naukowcom.

Istotnym elementem naszego artykułu i wystąpienia jest pokazanie, że przy replikacji i reprodukcji w neuronauce obliczeniowej stawia się różne cele, zatem do ich przeprowadzenia konieczne są inne dane. Przy replikacjach pomocna jest dokładna dokumentacja procesu modelowania, np. zapisywanie wyników z różnych etapów (por. Sandve et al. 2013). Przy reprodukcji natomiast niezbędne są jedynie te informacje, które pomogą odtworzyć model i ocenić jego wartość. Niekoniecznie jest tu ważna ilość informacji, ale raczej jej jakość – te aspekty techniczne i teoretyczne, które umożliwią sprawdzenie modelu w sposób niezależny od pierwotnego. Rozwój replikacji może zapewnić zatem tworzenie repozytoriów danych, natomiast efektywniejszą reprodukowalność umożliwi publikowanie raportów badań zawierających opis umożliwiający odtworzenie modelu. Obie procedury wpływają na wiarygodność, kumulatywność i przydatność wiedzy naukowej. Rozwój ich obu, przez dopracowanie warunków ich przeprowadzania może istotnie wpłynąć na rozwój nauki.

Adrianna Smurzyńska

Adrianna Smurzyńska

 

Source: Cognitive Science in Search of Unity

Kognitywistyka. Reprezentacje: teksty już dostępne

Okładka PFL

Na stronie Przeglądu Filozoficzno-Literackiego udostępnione zostały prawie wszystkie artykuły z numeru specjalnego „Kognitywistyka. Reprezentacje„, finansowanego z grantu NCN przyznanego na mocy decyzji DEC-2011/03/B/ HS1/04563. Niestety, nie możemy udostępnić niektórych przekładów ze względu na to, że prawa do publikacji posiadają wydawcy (a nie autorzy). Wyjątkami są jedynie teksty Lewisa Carrolla (już nieobjęte prawami autorskimi) i tekst Freda Dretskego, który miał wszelkie prawa do swojego klasycznego już tekstu i przyznał nam prawa do publikacji przekładu.

Dziękuję w tym miejscu wszystkim autorom i tłumaczom tekstów zamieszczonych w tym numerze PFL. I zapraszam do lektury!

Performatywne czytanie numeru PFL

plakat

plakatZapraszam serdecznie na performatywne czytanie numeru „Kognitywistyka. Reprezentacje” w niedzielę 14 XII o godzinie 16:00 w kawiarni Retrospekcja Cafe, ul. Bednarska 28/30, Warszawa. Występują: Magdalena Woleńska, Dawid Ludkiewicz, Bartek Szemis, Reda Haddad. Reżyseria: Reda Haddad.

Kognitywistyka. Reprezentacje: tematyczny numer „PFL”

Okładka PFL

Okładka PFLUkazał się nowy numer „Przeglądu Filozoficzno-Literackiego” Kognitywistyka. Reprezentacje pod moją redakcją. W numerze m.in. Ruth Millikan o reprezentacjach-dwugłowcach, Robert Cummins i Martin Roth o reprezentacjach strukturalnych, Tony Chemero o antyreprezentacjonizmie i Mark Bickhard o interaktywizmie. Oprócz tego oryginalne teksty polskich autorów, m.in. Roberta Poczobuta, Marka Pokropskiego, Łukasza Przybylskiego, Marty Reuter, Andrzeja Stępnika i Witolda Wachowskiego, a do tego uroczy dialog Lewisa Carrolla – Achilles i Żółw. Poza tym gorące dyskusje nad książkami Marka Pokropskiego, Krzysztofa Posłajki i Andrzeja Waśkiewicza. Więcej informacji w Spisie treści na stronie P-FL. 

Wielki słownik angielsko-polski

Okładka słownika

Wielki słownik angielsko-polski, opracowany przez zespół pod red. dr. hab. Dariusza Jemielniaka i moim, po ponad ośmiu latach pracy zespołu, zawiera 1,8 miliona wyrazów, opisujących kilkaset tysięcy znaczeń (objaśnień, idiomów i przykładów użycia, w tym skrótów, synonimów i wyrazów przeciwstawnych) w ramach ponad dwustu tysięcy definicji. Jest największym na świecie słownikiem angielsko-polskim opracowanym przez zespół językoznawców. To także pierwszy słownik opracowany w XXI wieku na podstawie badań rzeczywistego użycia języka angielskiego (gigantycznych korpusów angielszczyzny amerykańskiej, brytyjskiej i kanadyjskiej), obejmujący nie tylko słownictwo ogólne, ale tez terminologie i idiomy typowe dla biznesu, finansów, prawa, medycyny, różnych obszarów techniki i nauki, obejmujących łącznie ponad 150 dziedzin! Jako pierwszy odnotowuje choćby wyrazy takie jak QWERTY, screenager, smartphone, tablet czy boccia, wraz z ich poprawną angielską wymową.