Cât de corecte sunt rezultatele de la Evaluarea Națională? 9.60 poate fi oricând 9.50 sau 9.70, dezvăluie un expert

Laura Udrea, redactor
elev care sustine evaluarea nationala
Aflat în fața foii de examen, elevul alege să urmeze „rețetarul”, pentru a nu fi depunctat. FOTO: Shutterstock

    Rezultatele de la simularea pentru Evaluarea Națională au arătat o aglomerare uriașă de note peste 9 la limba română, într-o zonă a clasamentului unde câteva sutimi fac diferența între un liceu de elită și restul opțiunilor. Însă acele diferențe fine nu țin, de multe ori, de competențele reale ale copilului, ci de variațiile de corectare procedura standard presupune că lucrările sunt evaluate de doi profesori, iar nota finală este media aritmetică a celor două punctaje – și de cât de bine a reușit acesta să se plieze pe un șablon. Gabi Bartic, expert în evaluare educațională și CEO al platformei de testare Brio.ro, explică de ce inclusiv compunerea/textul argumentativ – subiectul care aduce cele mai multe puncte unui elev – a devenit o probă de conformare la examenul de clasa a VIII-a și cum se premiază „dresajul” în detrimentul gândirii critice și al capacității de argumentare.

    Deși textul argumentativ este considerat proba prin care elevii își demonstrează creativitatea, Gabi Bartic arată că acesta a devenit, paradoxal, spațiul în care se aplică cel mai rigid „dresaj” educațional. Într-un sistem în care testarea permite o marjă de eroare care poate schimba destinul unui elev la admiterea la liceu, interpretarea corectorului cântărește uneori mai mult decât argumentarea solidă a copilului. Interviul care urmează analizează de ce actualul format de examen eșuează în a diferenția corect elevii și cum s-ar putea trece de la o evaluare a unor șabloane învățate pe de rost la una a gândirii autentice.

    Totul Despre Mame: Ce contează mai mult la textul argumentativ din examen: ce spune copilul sau cum spune ca să fie pe placul corectorului?

    Gabi Bartic: În teorie, ar trebui să conteze ce spune copilul: ideea, înțelegerea, capacitatea de a argumenta. În practică, contează foarte mult cum spune și, mai ales, cât de bine se aliniază la un tip de răspuns „recunoscut” de evaluare. Șabloanele pe care le știm toți din culegeri și din caietele copiilor. Și aici apare problema: partea de test pe care noi, ca societate, o apărăm cel mai mult – compunerea – este și cea în care elevii sunt cel mai mult antrenați în șabloane. Învață structuri fixe, formule „de siguranță”, tipuri de argumente care „merg”.

    Și atunci, la un elev foarte bun, diferența între 9 și 10 măsoară cât a înțeles și a reușit să redea sau cât de bine a știut „cum să scrie pentru examen”?

    La niveluri înalte (în vârful clasamentului), diferența dintre 9 și 10 vine prea des nu din profunzimea gândirii, ci din cât de bine stăpânește sau „a îmblânzit” elevul acest „cod” al examenului. Iar asta nu mai este evaluare de gândire, ci de conformare.

    Ce cred că trebuie să facem, ca societate, e să ne decidem ce vrem de la copii: să fie creativi, să își consolideze practici solide de argumentare – dar atunci trebuie să transformăm radical felul în care producem învățarea la clasă din ziua 1 în care copilul întră în școală – sau să urmeze niște șabloane care „punctează” bine în grila de corectură?

    Dacă doi copii iau 9,40, respectiv 9,50 la română, putem spune sigur că unul e mai bun sau poate fi și o diferență din felul în care a fost corectată lucrarea?

    Din păcate, în actualul format de examen, nu putem spune asta cu foarte mare siguranță. În orice evaluare există o marjă de eroare. La itemii cu răspuns deschis însă, această marjă este semnificativ mai mare, pentru că acolo intervine interpretarea evaluatorului. Asta înseamnă că diferențe foarte mici – de tipul 9,40 versus 9,50 – pot reflecta (și de cele mai multe ori exact asta arată) și variații de corectare, nu doar diferențe reale de performanță.

    Și aici e tensiunea: pe baza acestor diferențe foarte fine luăm decizii foarte mari. Un copil poate „pica” de la un liceu la altul doar din cauza (sau pe baza) diferențelor între corectori. Cred cu tărie că le suntem datori copiilor noștri cu formate de examen în care clasamentele să se facă exclusiv pe prestația și competențele demonstrate ale copiilor, nu și pe subiectivismul unui corector sau al altuia.

    Dacă o zecime poate decide liceul, cât de mult ajută contestația? Este o șansă reală sau doar o ajustare în aceeași marjă de subiectivism?

    Contestația este, în principiu, un mecanism necesar și corect procedural. Ea poate corecta erori evidente și, uneori, poate aduce modificări semnificative. Dar trebuie spus onest: de cele mai multe ori, diferențele la contestație rămân în aceeași marjă de variație. Nu pentru că nu ar fi corectată din nou cu bună credință, ci pentru că vorbim despre un tip de evaluare în care există deja o anumită zonă de interpretare.

    Cu alte cuvinte, contestația nu elimină eroarea de măsurare, ci doar o poate ajusta. De aceea, soluția reală nu este să ne bazăm pe contestații, ci să reducem cât mai mult această marjă încă din designul testului și din modul de punctare. Pentru că, în final, problema nu este dacă putem corecta după, ci cât de precis măsurăm de la început. Un sistem bun de evaluare nu trebuie să se bazeze pe contestații ca să devină corect. Este corect din felul în care este construit de la bun început.

    Dacă teoretic există mai multe răspunsuri corecte, de ce simt elevii că este mai sigur să scrie „după dictare”?

    În mod evident, în majoritatea cazurilor, există mai multe răspunsuri corecte pentru orice item cu răspuns deschis. Practic, există un tip de răspuns care este mai ușor de punctat și, implicit, mai sigur pentru elev. Asta duce la un efect pervers: elevii nu mai sunt încurajați să gândească liber, ci să producă răspunsuri „în cheia baremului”.

    Și apare conformismul: cât de des vedem elevi care își asumă o interpretare diferită, argumentată solid, dar riscantă? Foarte rar. Pentru că știu că nu asta este recompensa în sistem. Știu un caz de copil care aproape a „picat” BAC-ul oral, asta când la oral aveam subiecte argumentative, pentru că a argumentat, suficient de solid, că Eminescu NU e poet universal, ci doar național. Suntem pregătiți, ca societate, să acceptăm să punctăm nu doar opinia manualului și a „catedrei”, ci opinia elevului? Pentru că în fond, cred, acolo e discuția.

    De ce merg și elevii buni – cei care citesc, gândesc și știu să argumenteze pe cont propriu – tot pe șabloane la examen?

    Pentru că, într-o mare măsură, au dreptate. Nu e vorba de „ghicit” în sens simplist, dar este vorba de a învăța un tip de răspuns care maximizează șansele la punctaj mare. Atunci când evaluarea nu este suficient de standardizată prin rubrici de punctare (scorare) riguroase și extrem de bine cunoscute și de evaluator, dar și de examinat, elevii caută siguranța. Iar siguranța, în sistemul actual, vine din șablon și din conformare. Problema este că, în felul acesta, sistemul transmite un mesaj foarte clar: nu originalitatea este premiată, ci alinierea la așteptări înguste.

    Putem, însă, să ne uităm puțin peste umăr: cum rezolvă alte sisteme această problemă. În fond, copiii scriu răspuns deschis și la Cambridge și la TOEFL și la orice test de limbă. Da, voi spune, dar ați văzut rubricile lor de punctaj? Câte contestații ați văzut la scorul TOEFL? Cheia succesului este să încetăm să mai spunem că la noi nu se poate face ceea ce în alte părți deja se face cu succes.

    Ce fac sistemele internaționale concret diferit față de noi și ce s-ar putea aplica rapid și în România, fără reforme mari?

    Diferența nu este că „ei au alt tip de subiecte”, ci că tratează foarte riguros inclusiv itemii cu răspuns deschis (constructed response – răspuns construit, în trad.). În primul rând, acești itemi sunt construiți să măsoare lucruri foarte clare și limitate. Nu cer, dau un exemplu extrem, „tot ce știi pe trei pagini”, ci cer răspunsuri mai scurte, fiecare legat de o competență precisă. Merg și mai profund în explicație. Când cer copilului „înțelegere”, punctez exclusiv dacă demonstrează că a înțeles textul. Când cer „argumentare”, punctez exclusiv că a argumentat”. Nu facem un ghiveci de competențe, între care una e mai importantă, pentru că scara asta a importanței ajunge să fie subiectivă.

    În al doilea rând, modul de punctare este transparent și anunțat din start. Elevul știe exact: primește un punct pentru un argument valid, două pentru două argumente etc. Nu trebuie să „ghicească” ce vrea evaluatorul. În al treilea rând, există mult mai mult control asupra punctării: evaluatorii sunt calibrați constant și există mecanisme prin care se verifică dacă aplică aceleași criterii. Și, foarte important, testele nu se bazează pe un singur item mare, de tip compunere, ci pe mai mulți itemi mai mici. Asta reduce mult variația și crește precizia. Toate acestea nu sunt reforme uriașe. Sunt lucruri care țin de design și de disciplină în evaluare și care pot fi introduse relativ rapid.

    Unde e problema mai mare: la cum se corectează lucrările sau la cum sunt făcute subiectele? Mai simplu: știm clar ce înseamnă un răspuns de 10 sau fiecare profesor vede puțin diferit?

    Problema este la intersecția dintre cele două. Subiectele, mai ales în zona superioară a clasamentului, nu diferențiază suficient de fin între niveluri apropiate. Asta face ca evaluarea să se sprijine și mai mult pe interpretare. Zona care ar trebui să fie extrem de rarefiată, între 8 și 10, pentru că de fapt acolo ne trebuie siguranța că am diferențiat corect, la noi e extrem de saturată. Îngrămădim extrem de mulți copii între 8 și 10 și ne dăm seama că nu putem spune cu exactitate de ce unul e „de 9.80” și altul „de 9.60”.

    În același timp, notarea nu este suficient de riguros formulată. Nu avem încă acea claritate și acea calibrare care să facă un „10” recognoscibil și aplicat la fel de toți evaluatorii. Rezultatul este că, în practică, există o zonă de flexibilitate în care intră interpretarea. Iar acolo intră și șablonul, și conformismul.

    Cât de corect îi evaluăm, de fapt, pe copii la proba de română?

    Îi evaluăm suficient de bine încât să avem o imagine generală a generației, suficient de prost încât niciun copil să nu poată spune că sigur-sigur a fost punctat corect. Și cred că asta merge și la profesorii evaluatori: nu cred că vreunul poate zice, afară de extrem de puține lucrări „perfecte” că 9.60-ul acela nu putea fi și 9.70 sau 9.50.

    Ce spun cu extrem de mare responsabilitate însă e că nu evaluăm suficient de precis și nici suficient de curat încât să spunem că evaluăm cu adevărat gândirea, spiritul critic, opinia argumentată. Pentru că partea din test care ar trebui să măsoare cel mai mult argumentarea, interpretarea și așa mai departe, este și partea în care am introdus cel mai mult dresaj: șabloane, formule, conformare.

    Iar când un sistem de evaluare premiază în mod constant acest tip de răspuns, transmite implicit că asta valorizează. Și atunci problema nu mai este doar cum evaluăm. Este despre dacă decidem, cumva, să valorizăm și gândirea. Deocamdată, nu cred că suntem acolo.

    Te-ar mai putea interesa

    Te-ar mai putea interesa