Укр Рус

Дата: 26.07.2016

Підписка на новини

Голосування

Оновленя змісту початкової освіти (новий курікулум) має передбачати
  • Голосів: (0%)
  • Голосів: (0%)
  • Голосів: (0%)
  • Голосів: (0%)
  • Голосів: (0%)
Всього голосів:
Перший голос:
Останій голос:
Назад
 
Powered by Sexy Polling
 

Деякі проблеми освітніх вимірювань в українському контексті

Автор:
Володимир Бахрушин
Опубліковано
24.10.2013

Добре відома стара істина — керувати можна лише тим, що можна вимірювати. Саме тому останнім часом проблема освітніх вимірювань привертає підвищену увагу фахівців. Ці питання викликають багато дискусій.Деякі відомі фахівці заперечують саму можливість вимірювання освітніх досягнень, навчальної компетентності чи інших подібних освітніх показників. З іншого боку, поширеною є й така думка, що, незважаючи на окремі недоліки, існуючі методи освітніх вимірювань загалом є достатньо якісними, щоб взагалі відмовитися від суб’єктивних оцінок викладачів.

 Ця стаття є суб’єктивними думками автора стосовно деяких актуальних проблем освітніх вимірювань. Їх можна розглядати у різних аспектах. З погляду теорії, важливим є визначення показників, що найбільш адекватно відображають ті чи інші властивості об’єктів оцінювання; визначення факторів, що впливають на результати вимірювань; загальні питання отримання й порівняння багатовимірних оцінок, одержуваних в умовах невизначеності. З погляду методології та практики, існує потреба у розробці нових і вдосконаленні існуючих методів оцінювання з урахуванням наявних теоретичних напрацювань, різноманіття завдань та існуючих ресурсних обмежень.

Стаття не претендує на вичерпне дослідження питання, а відображає лише окремі з великої кількості проблем, що обговорювалися під час IV Міжнародної науково-практичної конференції «Освітні вимірювання— 2013», яка відбулася у Татарові 1-5 жовтня 2013 р. У першій частині автор зосереджує увагу на деяких теоретичних і методичних проблемах ЗНО, що стосуються освітніх вимірювань. У другій частині автор планує торкнутися питань комплексного оцінювання абітурієнтів при вступі до ВНЗ, а також деяких інших проблем, пов’язаних із практичним застосуванням сучасних методів освітніх вимірювань.

Значну увагу на конференції було приділено питанням вдосконалення зовнішнього незалежного оцінювання (ЗНО). Слід зазначити, що переважна більшість учасників з розумінням сприймає критику ЗНО з багатьох аспектів. Проблеми й недоліки є у всіх систем стандартизованого тестування, у тому числі в SAT, AST та інших, що існують набагато довше, ніж ЗНО.

З погляду теорії та методики тестування (оцінювання), обговорення цих питань потрібно, насамперед, для розвитку і вдосконалення відповідних процедур. З погляду практики — це необхідно для розуміння
існуючих проблем і врахування їх при прийнятті управлінських рішень з оглядом на наявні ресурсні, часові, організаційні та інші обмеження.

У цьому контексті особливу увагу привертають фактори невизначеності, що ускладнюють інтерпретацію чи порівняння результатів абітурієнтів. До них, зокрема, належать:

— похибка вимірювання, зумовлена статистичною природою результатів тестування;

— застосування перетворення порядкових даних (бали) на числові при визначенні підсумкових оцінок;

— невідповідність (чи неповна відповідність) реальних тестів та груп абітурієнтів моделям, що покладені в основу тестів (відхилення від нормального закону розподілу, неоднорідність, негомогенність, великий розкид дискримінативної здатності тощо);

— нечіткість та множинність цілей тестування.

У практичному оцінюванні всі ці фактори можна звести до двох питань:

1. Наскільки значущою є різниця між абітурієнтами з близькими (чи однаковими) балами? З відповіддю на це питання пов’язане вирішення деяких інших актуальних проблем, зокрема — про допустимість паралельних сесій ЗНО й застосування при вступі результатів ЗНО інших років.

2. Чи достатньо результатів ЗНО для адекватного оцінювання потенційної успішності абітурієнта на конкретному напрямі підготовки у конкретному ВНЗ? Це питання ми розглянемо докладніше у другій частині.

Окремі науковці пропонують підвищувати роздільну здатність тестів. Зокрема, це можна зробити за допомогою перетворення, що враховує складність завдань при призначенні балів за їхнє виконання, але не спотворює порядок розташування абітурієнтів з різними балами у рейтингу (тобто змінюється лише розташування абітурієнтів, що мають однакові бали). Такий та деякі інші методи корегування розглянуто в статті О.Ю.Соколова й М.С.Мазорчука[1]. Ця пропозиція потребує серйозного обґрунтування. Зазвичай, роздільна здатність є властивістю первинних вимірювань і її неможливо підвищити за допомогою будь-яких наступних перетворень. Для розуміння цього достатньо згадати, як змінюється вигляд електронного зображення (фотографії, рисунка) при його збільшенні. Але за своєю сутністю вказана пропозиція скоріше є не підвищенням «роздільної здатності», а варіантом відомої методики ранжирування за декількома критеріями, яка передбачає спочатку ранжирування за головним критерієм, потім (для об’єктів, що отримали рівні ранги) — за другим за важливістю і т.д. Обґрунтування такої методики, у першу чергу, має базуватися на оцінюванні випадкової похибки одержуваних абітурієнтами балів. Її можна використовувати, якщо ця похибка є меншою, ніж одиниця. Але за нашими оцінками вона набагато більша.

Висловлювалися й протилежні пропозиції. Під час конференції відомий експерт Альгірдас Забульоніс наводив приклад Ірландії, де не намагаються штучно підвищувати роздільну здатність, а, навпаки, об’єднують вступників з близькими балами до певних класів, які відповідають різним рівням підготовленості абітурієнтів. При цьому вважається, що всередині кожного класу абітурієнти є рівними за підготовленістю, оскільки різниця між ними статистично незначуща. Відбір серед абітурієнтів найнижчого (напівпрохідного) класу здійснюється за допомогою генератора випадкових чисел. Звісно, що такий підхід також має певні недоліки. Зокрема, різниця рівнів підготовленості абітурієнтів з близькими балами, що опинилися на межі двох класів, теж буде статистично незначущою, але вони при цьому можуть потрапити до різних класів. Втім, для більшості абітурієнтів такий підхід не порушує принципів справедливості відбору.

Й, нарешті, можна нічого не змінювати в цьому аспекті, виходячи з того, що, незважаючи на певну статистичну похибку оцінок, з імовірністю більше 50% абітурієнт, який отримав при тестуванні більшу кількість балів, краще підготовлений з відповідної дисципліни. Додатковими доводами на користь такого рішення є організаційні та фінансові витрати, пов’язані з впровадженням нових методик оцінювання, необхідність їхнього додаткового теоретичного обґрунтування, а також існування інших, мабуть, більш актуальних на сьогодні проблем, які також потрібно вирішувати.

Що ж стосується питання паралельних сесій ЗНО з окремих дисциплін та зарахування результатів ЗНО минулих років, то тут в основу правильного рішення також має бути покладено порівняння можливого зсуву результатів з випадковою похибкою вимірювання. Як зазначалося в нашій попередній статті[2], для тесту першої сесії ЗНО-2012 з математики мінімальному прохідному балу (126,5) відповідає 95% довірчий інтервал можливих значень істинного результату від 100,5 до 146. Для інших тестів й інших балів довірчі інтервали є вужчими, але їхня ширина зазвичай є не меншою, ніж 5-10 балів. Автор не має повних даних, але згідно з наведеними оцінками та відомою методикою визначення балів є підстави припускати, що додаткові похибки, які вносять паралельні сесії, та використання результатів різних років є значно меншими. Тому така практика є цілком допустимою.

Значну увагу як науковців, так і громадськості привертають питання шкалування результатів ЗНО. Однією з найбільш обговорюваних є методика переведення первинного балу у використовувану при підбитті підсумків шкалу від 100 до 200 балів. Сьогодні для цього використовують так зване еквіпроцентильне перетворення. Його сутність полягає у тому, щоб підсумкові результати приблизно відповідали нормальному розподілу із середнім значенням 150 балів та стандартним відхиленням 20 балів. Наслідком цього перетворення є те, що через високу асиметрію розподілу результатів з окремих дисциплін спостерігається помітне «покращення» результатів тестування. Наприклад, для тестів з математики та фізики прохідні 124 бали відповідають 10-15% (іноді й менше), а 150 балів— 30-40% від максимально можливого первинного балу.

Головна проблема при цьому полягає не у спотворенні результатів — ранжирування абітурієнтів не змінюється за будь-якого монотонного перетворення шкали, а у неадекватному сприйнятті цих результатів громадськістю та абітурієнтами. Ще більший негативний вплив у цьому сенсі справляє існуючий поріг складання тестів — 124 бали. На практиці він встановлюється формально з умови, щоб відсікти приблизно 10% найгірших результатів тестування з дисципліни. Але у громадській думці цей поріг має інше значення — це межа між тими, хто має достатній або недостатній рівень підготовки для продовження навчання у ВНЗ. І тут починає працювати зворотний зв'язок, формуючий громадську думку стосовно того, що таке «добре» і що таке «погане». Як наслідок, ми отримуємо студентів, які повинні починати вчити вищу математику, маючі знання іноді на рівні початкової школи. Звичайно, можна запропонувати університетам не брати їх на навчання. Але незважаючи на те, які прохідні бали будуть встановлювати університети, залишається фактом, що на державному рівні такі абітурієнти вважаються спроможними здобувати вищу освіту. Більш докладно можливі підходи і пропозиції з корегування правил відбору абітурієнтів автор планує розглянути у другій частині статті.

Учасники конференції, зокрема — професори Леонід Любчик, Альберт Оганесян, Сергій Раков, Леонід Товажнянський та інші пропонували багато різних підходів до перетворення первинних балів у підсумкові результати тестування. Зокрема, це можуть бути лінійне перетворення, еквіпроцентильне перетворення з урахуванням поправок на імовірність вгадування та складність завдань, перетворення на основі IRT-моделей тестів тощо. Всі вони мають певні переваги й недоліки. Тому на даному етапі, мабуть, найбільш доцільним є продовження досліджень у цьому напрямі, а не вибір одного з підходів як нової базової моделі.

Теорія тестування передбачає необхідність корегування підсумкового балу на імовірність вгадування правильних відповідей за наявності завдань з вибором відповіді з декількох наявних варіантів. Але сучасна методика проведення ЗНО не передбачає такого корегування. Альгірдас Забульоніс пропонує замість формального порогу в 124 бали, який, як характеристика реального рівня знань абітурієнтів, варіюється для різних дисциплін у дуже широких межах, встановити інший поріг — «Склав — не склав». Таким порогом може бути отримання будь-якого додатного балу після віднімання від первинного результату середнього балу, що може бути отриманий шляхом випадкового вибору варіантів відповідей. Наприклад, для тестів з математики від набраних абітурієнтом первинних балів можна було б віднімати 4 бали (якщо враховувати тільки 20 завдань з вибором однієї правильної відповіді з 5-ти варіантів), для тесту з фізики — 5 балів (=20/4) й т.д. Після такого корегування результати можна було б перераховувати у 100-бальну шкалу за існуючою чи однією з інших пропонованих методик.

Багато уваги учасники конференції приділили питанням удосконалення завдань тестів ЗНО. Основними напрямами цих дискусій були типи використовуваних завдань, їх зміст та складність, а також методи оцінювання якості завдань. Зміст завдань напряму пов'язаний з валідністю тестів. Тому при його визначенні необхідно враховувати, хто саме і з якою метою їх складає. Найбільш складним з погляду психології розробників є проведення межі між вимогами шкільної програми й потребами майбутнього навчання у ВНЗ. З огляду на те, що сьогодні ЗНО не використовується як інструмент державної підсумкової атестації, а є інструментом відбору абітурієнтів на навчання, мабуть, є сенс не включати до тестів занадто специфічні завдання (зокрема, їх багато у тестах з географії) на перевірку тих знань, що не впливатимуть на спроможність більшості тестованих абітурієнтів успішно навчатися за обраними спеціальностями.

Багато фахівців звертало увагу на доцільність ширшого використання завдань з відкритими та розгорнутими відповідями, зокрема — відновлення завдань з розгорнутими відповідями у тестах з математики та фізики. Але були й заперечення, бо такі завдання потребують істотних додаткових витрат, а також певних змін у методиках визначення підсумкових результатів. Чи будуть ці ускладнення виправданими, якщо зважати на низький рівень підготовки абітурієнтів, що не справляються навіть з багатьма існуючими завданнями. Крім того, як свідчить досвід, значна частка учасників тестування навіть не намагається виконувати такі завдання.

Стосовно складності завдань експертами також висловлюються різні думки. З одного боку, практика ЗНО свідчить, що для багатьох учасників наявні завдання виявляються занадто складними. Чого вартий, зокрема, приклад, що наводила заступник директора УЦОЯО Лариса Дворецька. Більшість учасників тестування з математики не впоралися з розв'язанням рівняння 2/x = 5. Навіть серед тих, хто отримав понад 180-ти балів за цей тест, більше 10% абітурієнтів не спромоглися визначити правильну відповідь. З іншого боку, мала частка по-справжньому складних завдань призводить до того, що тести не дуже добре вирізняють рівень підготовки сильних абітурієнтів. Мабуть, однією з причин поганих результатів багатьох учасників тестування з математики та фізики є не стільки складність завдань і не тільки низький рівень шкільної освіти, а й безвідповідальне відношення абітурієнтів щодо підготовки до ЗНО й складання тестів. Адже нерідко доводиться стикатися з тим, що окремі учасники з самого початку націлені на отримання мінімального результату з мінімальними витратами зусиль та часу і навіть не намагаються розв’язувати задачі й шукати правильні відповіді на завдання. Деякі з них швидко заповнюють бланк відповідей і йдуть займатися більш цікавими (чи важливими) для них справами. Тому, мабуть, є сенс у певному підвищенні середнього й, особливо, максимального рівнів складності використовуваних завдань.

Цікава дискусія відбулася з питань практичного застосування статистичних показників якості тестів і тестових завдань. Як було показано у доповіді автора та його попередній статті2, формальні показники якості для значної частки тестових завдань ЗНО 2009-2011 р. (складність, коефіцієнти кореляції й дискримінації) не відповідають існуючим вимогам теорії освітнього тестування. З іншого боку, результати дослідження професора Сергія Ракова[3] свідчать, що значення складності й коефіцієнтів кореляції завдань тестів ЗНО-2012 з математики, а також величини альфа Кронбаха цього тесту є істотно різними для різних порогових груп (140+, 160+, 180+ тощо). Тому середні значення відповідних показників недостатньо точно характеризують якість тестів. Такий висновок, з одного боку, ставить нові проблеми для теоретичних досліджень, а з другого — підтверджує необхідність відкриття для вітчизняних дослідників деперсоніфікованих баз даних результатів ЗНО, без чого такі дослідження є неможливими.

Іншим питанням, що також цікаве не тільки з практичного, а й з теоретичного погляду, є прагнення наближатися до нормального розподілу первинних результатів тестування. Відповідність результатів нормальному розподілу дає змогу застосовувати відомі теоретичні моделі й методи обробки даних. Існує принципова можливість підібрати завдання тестів так, щоб розподіл результатів був близьким до нормального. Але чи треба це робити?

Існуючі сильно асиметричні, а часто й неоднорідні розподіли первинних балів для більшості тестів скоріше за все не відбивають недосконалість тестів, а показують реальні особливості розподілу рівнів підготовленості абітурієнтів. А якщо це так, чи потрібно штучно наближати розподіл до нормального? Замість цього можна застосовувати інші підходи. Зокрема, можна було б використовувати для обробки результатів тестування методи непараметричної статистики. Частково це роблять вже сьогодні, прикладом чого є згадане вище еквіпроцентильне перетворення при визначенні результатів тестування.

Дискусійним питанням є доцільність введення додаткових тестів з окремих дисциплін, зокрема — тестів з інформатики, правознавства, економіки, деяких мов національних меншин. Але існують певні технологічні обмеження на запровадження тих чи інших тестів ЗНО.

Стосовно тестів з мов національних меншин таким обмеженням є статистична природа результатів тестування. Для малих груп абітурієнтів, що складають той чи інший тест, статистична похибка стає неприпустимо високою й унеможливлює адекватне визначення результатів тестування. На мою думку, альтернативним варіантом, який можна було б розглянути, є складання зацікавленими особами стандартизованих тестів з рідної мови у відповідних країнах за організаційної допомоги відповідних дипломатичних представництв. Потім результати таких тестів могли б перераховуватися у стандартну шкалу ЗНО. Але існує й інше питання — на які напрями підготовки пропонується зараховувати результати відповідних тестів?

Стосовно тестів з правознавства і економіки існує інше застереження. Тут проблемою є малий термін вивчення відповідних дисциплін за шкільною програмою, що ускладнює розробку якісних тестів ЗНО.

Більш доцільним й обґрунтованим виглядає запровадження тесту з інформатики. З одного боку, така необхідність викликана збільшенням обсягів державного замовлення на підготовку фахівців з інформаційно-комунікаційних технологій. При вступі на відповідні напрями підготовки складання тестів саме з інформатики виглядає більш зрозумілим, ніж існуюча сьогодні альтернатива и вигляді «фізики» або «іноземної мови». В окремих випадках тести з інформатики можна було б використовувати як непрофільні і для вступу на інші напрями, оскільки практично всі університетські освітні програми передбачають наявність у майбутніх студентів певних компетенцій з інформатики. Як додатковий аргумент на користь такого тесту наводилось його потенційне сприяння покращенню рівня підготовки з інформатики у загальній школі. Але цей аргумент у рівній мірі стосується будь-якого з існуючих чи пропонованих тестів ЗНО.

При обговоренні питань вдосконалення ЗНО розглядалася й можливість застосування сучасних технологій комп’ютерного тестування через Інтернет. Особливо актуальною така можливість є для організації тестування з дисциплін, які складає невелика кількість абітурієнтів. У цих випадках виникають істотні організаційні складності з організацією тестування через необхідність прибуття абітурієнтів з віддалених населених пунктів до невеликої кількості використовуваних пунктів тестування. Крім того, комп’ютерне тестування дає змогу використовувати ширший набір типів завдань, зокрема — віртуальні експерименти з природничих наук, мультимедіа тощо, що надасть змогу отримати більш адекватні оцінки абітурієнтів. Але поки що це — справа майбутнього.

Підбиваючи підсумки цієї статті, хотілося б зазначити, що всі вказані (та багато інших) проблем, які існують в теорії та практиці ЗНО, не перекреслюють його головної переваги — ця технологія на сьогодні забезпечує найбільш об’єктивне порівняння абітурієнтів за визначеними критеріями. Далі можна уточнювати критерії, підвищувати точність оцінювання, вдосконалювати технологію, розвивати теорію. Все це потребує часу, фінансів та інших ресурсів. Тому більшість обговорюваних проблем неможливо вирішити швидко. Але й ігнорувати їх також не можна.

 

 [1]Соколов О.Ю. До питання практичного застосування методу м'якого коригування результатів тестування на основі аналізу складності завдань / О.Ю.Соколов, М.С.Мазорчук // Вісник ТІМО. — 2013. — № 7-8. — С.32-39.

[2]Бахрушин В. Наскільки якісними є тести ЗНО: http://education-ua.org/ua/articles/107-naskilki-yakisnimi-e-testi-zno.

[3]Метод порогових груп та його використання для аналізу результатів ЗНО / С.А.Раков // Вісник ТІМО. — 2013. — № 7-8. — С. 52-63.

 

Володимир Бахрушин, д.ф.-м.н., професор, академік АН вищої школи України

Деякі проблеми освітніх вимірювань в українському контексті
Деякі проблеми освітніх вимірювань в українському контексті

Добре відома стара істина — керувати можна лише тим, що можна вимірювати. Саме тому останнім часом проблема освітніх вимірювань привертає підвищену увагу фахівців. Ці питання викликають багато дискусій.Деякі відомі фахівці заперечують саму можливість вимірювання освітніх досягнень, навчальної компетентності чи інших подібних освітніх показників. З іншого боку, поширеною є й така думка, що, незважаючи на окремі недоліки, існуючі методи освітніх вимірювань загалом є достатньо якісними, щоб взагалі відмовитися від суб’єктивних оцінок викладачів.

 Ця стаття є суб’єктивними думками автора стосовно деяких актуальних проблем освітніх вимірювань. Їх можна розглядати у різних аспектах. З погляду теорії, важливим є визначення показників, що найбільш адекватно відображають ті чи інші властивості об’єктів оцінювання; визначення факторів, що впливають на результати вимірювань; загальні питання отримання й порівняння багатовимірних оцінок, одержуваних в умовах невизначеності. З погляду методології та практики, існує потреба у розробці нових і вдосконаленні існуючих методів оцінювання з урахуванням наявних теоретичних напрацювань, різноманіття завдань та існуючих ресурсних обмежень.

Стаття не претендує на вичерпне дослідження питання, а відображає лише окремі з великої кількості проблем, що обговорювалися під час IV Міжнародної науково-практичної конференції «Освітні вимірювання— 2013», яка відбулася у Татарові 1-5 жовтня 2013 р. У першій частині автор зосереджує увагу на деяких теоретичних і методичних проблемах ЗНО, що стосуються освітніх вимірювань. У другій частині автор планує торкнутися питань комплексного оцінювання абітурієнтів при вступі до ВНЗ, а також деяких інших проблем, пов’язаних із практичним застосуванням сучасних методів освітніх вимірювань.

Значну увагу на конференції було приділено питанням вдосконалення зовнішнього незалежного оцінювання (ЗНО). Слід зазначити, що переважна більшість учасників з розумінням сприймає критику ЗНО з багатьох аспектів. Проблеми й недоліки є у всіх систем стандартизованого тестування, у тому числі в SAT, AST та інших, що існують набагато довше, ніж ЗНО.

З погляду теорії та методики тестування (оцінювання), обговорення цих питань потрібно, насамперед, для розвитку і вдосконалення відповідних процедур. З погляду практики — це необхідно для розуміння
існуючих проблем і врахування їх при прийнятті управлінських рішень з оглядом на наявні ресурсні, часові, організаційні та інші обмеження.

У цьому контексті особливу увагу привертають фактори невизначеності, що ускладнюють інтерпретацію чи порівняння результатів абітурієнтів. До них, зокрема, належать:

— похибка вимірювання, зумовлена статистичною природою результатів тестування;

— застосування перетворення порядкових даних (бали) на числові при визначенні підсумкових оцінок;

— невідповідність (чи неповна відповідність) реальних тестів та груп абітурієнтів моделям, що покладені в основу тестів (відхилення від нормального закону розподілу, неоднорідність, негомогенність, великий розкид дискримінативної здатності тощо);

— нечіткість та множинність цілей тестування.

У практичному оцінюванні всі ці фактори можна звести до двох питань:

1. Наскільки значущою є різниця між абітурієнтами з близькими (чи однаковими) балами? З відповіддю на це питання пов’язане вирішення деяких інших актуальних проблем, зокрема — про допустимість паралельних сесій ЗНО й застосування при вступі результатів ЗНО інших років.

2. Чи достатньо результатів ЗНО для адекватного оцінювання потенційної успішності абітурієнта на конкретному напрямі підготовки у конкретному ВНЗ? Це питання ми розглянемо докладніше у другій частині.

Окремі науковці пропонують підвищувати роздільну здатність тестів. Зокрема, це можна зробити за допомогою перетворення, що враховує складність завдань при призначенні балів за їхнє виконання, але не спотворює порядок розташування абітурієнтів з різними балами у рейтингу (тобто змінюється лише розташування абітурієнтів, що мають однакові бали). Такий та деякі інші методи корегування розглянуто в статті О.Ю.Соколова й М.С.Мазорчука[1]. Ця пропозиція потребує серйозного обґрунтування. Зазвичай, роздільна здатність є властивістю первинних вимірювань і її неможливо підвищити за допомогою будь-яких наступних перетворень. Для розуміння цього достатньо згадати, як змінюється вигляд електронного зображення (фотографії, рисунка) при його збільшенні. Але за своєю сутністю вказана пропозиція скоріше є не підвищенням «роздільної здатності», а варіантом відомої методики ранжирування за декількома критеріями, яка передбачає спочатку ранжирування за головним критерієм, потім (для об’єктів, що отримали рівні ранги) — за другим за важливістю і т.д. Обґрунтування такої методики, у першу чергу, має базуватися на оцінюванні випадкової похибки одержуваних абітурієнтами балів. Її можна використовувати, якщо ця похибка є меншою, ніж одиниця. Але за нашими оцінками вона набагато більша.

Висловлювалися й протилежні пропозиції. Під час конференції відомий експерт Альгірдас Забульоніс наводив приклад Ірландії, де не намагаються штучно підвищувати роздільну здатність, а, навпаки, об’єднують вступників з близькими балами до певних класів, які відповідають різним рівням підготовленості абітурієнтів. При цьому вважається, що всередині кожного класу абітурієнти є рівними за підготовленістю, оскільки різниця між ними статистично незначуща. Відбір серед абітурієнтів найнижчого (напівпрохідного) класу здійснюється за допомогою генератора випадкових чисел. Звісно, що такий підхід також має певні недоліки. Зокрема, різниця рівнів підготовленості абітурієнтів з близькими балами, що опинилися на межі двох класів, теж буде статистично незначущою, але вони при цьому можуть потрапити до різних класів. Втім, для більшості абітурієнтів такий підхід не порушує принципів справедливості відбору.

Й, нарешті, можна нічого не змінювати в цьому аспекті, виходячи з того, що, незважаючи на певну статистичну похибку оцінок, з імовірністю більше 50% абітурієнт, який отримав при тестуванні більшу кількість балів, краще підготовлений з відповідної дисципліни. Додатковими доводами на користь такого рішення є організаційні та фінансові витрати, пов’язані з впровадженням нових методик оцінювання, необхідність їхнього додаткового теоретичного обґрунтування, а також існування інших, мабуть, більш актуальних на сьогодні проблем, які також потрібно вирішувати.

Що ж стосується питання паралельних сесій ЗНО з окремих дисциплін та зарахування результатів ЗНО минулих років, то тут в основу правильного рішення також має бути покладено порівняння можливого зсуву результатів з випадковою похибкою вимірювання. Як зазначалося в нашій попередній статті[2], для тесту першої сесії ЗНО-2012 з математики мінімальному прохідному балу (126,5) відповідає 95% довірчий інтервал можливих значень істинного результату від 100,5 до 146. Для інших тестів й інших балів довірчі інтервали є вужчими, але їхня ширина зазвичай є не меншою, ніж 5-10 балів. Автор не має повних даних, але згідно з наведеними оцінками та відомою методикою визначення балів є підстави припускати, що додаткові похибки, які вносять паралельні сесії, та використання результатів різних років є значно меншими. Тому така практика є цілком допустимою.

Значну увагу як науковців, так і громадськості привертають питання шкалування результатів ЗНО. Однією з найбільш обговорюваних є методика переведення первинного балу у використовувану при підбитті підсумків шкалу від 100 до 200 балів. Сьогодні для цього використовують так зване еквіпроцентильне перетворення. Його сутність полягає у тому, щоб підсумкові результати приблизно відповідали нормальному розподілу із середнім значенням 150 балів та стандартним відхиленням 20 балів. Наслідком цього перетворення є те, що через високу асиметрію розподілу результатів з окремих дисциплін спостерігається помітне «покращення» результатів тестування. Наприклад, для тестів з математики та фізики прохідні 124 бали відповідають 10-15% (іноді й менше), а 150 балів— 30-40% від максимально можливого первинного балу.

Головна проблема при цьому полягає не у спотворенні результатів — ранжирування абітурієнтів не змінюється за будь-якого монотонного перетворення шкали, а у неадекватному сприйнятті цих результатів громадськістю та абітурієнтами. Ще більший негативний вплив у цьому сенсі справляє існуючий поріг складання тестів — 124 бали. На практиці він встановлюється формально з умови, щоб відсікти приблизно 10% найгірших результатів тестування з дисципліни. Але у громадській думці цей поріг має інше значення — це межа між тими, хто має достатній або недостатній рівень підготовки для продовження навчання у ВНЗ. І тут починає працювати зворотний зв'язок, формуючий громадську думку стосовно того, що таке «добре» і що таке «погане». Як наслідок, ми отримуємо студентів, які повинні починати вчити вищу математику, маючі знання іноді на рівні початкової школи. Звичайно, можна запропонувати університетам не брати їх на навчання. Але незважаючи на те, які прохідні бали будуть встановлювати університети, залишається фактом, що на державному рівні такі абітурієнти вважаються спроможними здобувати вищу освіту. Більш докладно можливі підходи і пропозиції з корегування правил відбору абітурієнтів автор планує розглянути у другій частині статті.

Учасники конференції, зокрема — професори Леонід Любчик, Альберт Оганесян, Сергій Раков, Леонід Товажнянський та інші пропонували багато різних підходів до перетворення первинних балів у підсумкові результати тестування. Зокрема, це можуть бути лінійне перетворення, еквіпроцентильне перетворення з урахуванням поправок на імовірність вгадування та складність завдань, перетворення на основі IRT-моделей тестів тощо. Всі вони мають певні переваги й недоліки. Тому на даному етапі, мабуть, найбільш доцільним є продовження досліджень у цьому напрямі, а не вибір одного з підходів як нової базової моделі.

Теорія тестування передбачає необхідність корегування підсумкового балу на імовірність вгадування правильних відповідей за наявності завдань з вибором відповіді з декількох наявних варіантів. Але сучасна методика проведення ЗНО не передбачає такого корегування. Альгірдас Забульоніс пропонує замість формального порогу в 124 бали, який, як характеристика реального рівня знань абітурієнтів, варіюється для різних дисциплін у дуже широких межах, встановити інший поріг — «Склав — не склав». Таким порогом може бути отримання будь-якого додатного балу після віднімання від первинного результату середнього балу, що може бути отриманий шляхом випадкового вибору варіантів відповідей. Наприклад, для тестів з математики від набраних абітурієнтом первинних балів можна було б віднімати 4 бали (якщо враховувати тільки 20 завдань з вибором однієї правильної відповіді з 5-ти варіантів), для тесту з фізики — 5 балів (=20/4) й т.д. Після такого корегування результати можна було б перераховувати у 100-бальну шкалу за існуючою чи однією з інших пропонованих методик.

Багато уваги учасники конференції приділили питанням удосконалення завдань тестів ЗНО. Основними напрямами цих дискусій були типи використовуваних завдань, їх зміст та складність, а також методи оцінювання якості завдань. Зміст завдань напряму пов'язаний з валідністю тестів. Тому при його визначенні необхідно враховувати, хто саме і з якою метою їх складає. Найбільш складним з погляду психології розробників є проведення межі між вимогами шкільної програми й потребами майбутнього навчання у ВНЗ. З огляду на те, що сьогодні ЗНО не використовується як інструмент державної підсумкової атестації, а є інструментом відбору абітурієнтів на навчання, мабуть, є сенс не включати до тестів занадто специфічні завдання (зокрема, їх багато у тестах з географії) на перевірку тих знань, що не впливатимуть на спроможність більшості тестованих абітурієнтів успішно навчатися за обраними спеціальностями.

Багато фахівців звертало увагу на доцільність ширшого використання завдань з відкритими та розгорнутими відповідями, зокрема — відновлення завдань з розгорнутими відповідями у тестах з математики та фізики. Але були й заперечення, бо такі завдання потребують істотних додаткових витрат, а також певних змін у методиках визначення підсумкових результатів. Чи будуть ці ускладнення виправданими, якщо зважати на низький рівень підготовки абітурієнтів, що не справляються навіть з багатьма існуючими завданнями. Крім того, як свідчить досвід, значна частка учасників тестування навіть не намагається виконувати такі завдання.

Стосовно складності завдань експертами також висловлюються різні думки. З одного боку, практика ЗНО свідчить, що для багатьох учасників наявні завдання виявляються занадто складними. Чого вартий, зокрема, приклад, що наводила заступник директора УЦОЯО Лариса Дворецька. Більшість учасників тестування з математики не впоралися з розв'язанням рівняння 2/x = 5. Навіть серед тих, хто отримав понад 180-ти балів за цей тест, більше 10% абітурієнтів не спромоглися визначити правильну відповідь. З іншого боку, мала частка по-справжньому складних завдань призводить до того, що тести не дуже добре вирізняють рівень підготовки сильних абітурієнтів. Мабуть, однією з причин поганих результатів багатьох учасників тестування з математики та фізики є не стільки складність завдань і не тільки низький рівень шкільної освіти, а й безвідповідальне відношення абітурієнтів щодо підготовки до ЗНО й складання тестів. Адже нерідко доводиться стикатися з тим, що окремі учасники з самого початку націлені на отримання мінімального результату з мінімальними витратами зусиль та часу і навіть не намагаються розв’язувати задачі й шукати правильні відповіді на завдання. Деякі з них швидко заповнюють бланк відповідей і йдуть займатися більш цікавими (чи важливими) для них справами. Тому, мабуть, є сенс у певному підвищенні середнього й, особливо, максимального рівнів складності використовуваних завдань.

Цікава дискусія відбулася з питань практичного застосування статистичних показників якості тестів і тестових завдань. Як було показано у доповіді автора та його попередній статті2, формальні показники якості для значної частки тестових завдань ЗНО 2009-2011 р. (складність, коефіцієнти кореляції й дискримінації) не відповідають існуючим вимогам теорії освітнього тестування. З іншого боку, результати дослідження професора Сергія Ракова[3] свідчать, що значення складності й коефіцієнтів кореляції завдань тестів ЗНО-2012 з математики, а також величини альфа Кронбаха цього тесту є істотно різними для різних порогових груп (140+, 160+, 180+ тощо). Тому середні значення відповідних показників недостатньо точно характеризують якість тестів. Такий висновок, з одного боку, ставить нові проблеми для теоретичних досліджень, а з другого — підтверджує необхідність відкриття для вітчизняних дослідників деперсоніфікованих баз даних результатів ЗНО, без чого такі дослідження є неможливими.

Іншим питанням, що також цікаве не тільки з практичного, а й з теоретичного погляду, є прагнення наближатися до нормального розподілу первинних результатів тестування. Відповідність результатів нормальному розподілу дає змогу застосовувати відомі теоретичні моделі й методи обробки даних. Існує принципова можливість підібрати завдання тестів так, щоб розподіл результатів був близьким до нормального. Але чи треба це робити?

Існуючі сильно асиметричні, а часто й неоднорідні розподіли первинних балів для більшості тестів скоріше за все не відбивають недосконалість тестів, а показують реальні особливості розподілу рівнів підготовленості абітурієнтів. А якщо це так, чи потрібно штучно наближати розподіл до нормального? Замість цього можна застосовувати інші підходи. Зокрема, можна було б використовувати для обробки результатів тестування методи непараметричної статистики. Частково це роблять вже сьогодні, прикладом чого є згадане вище еквіпроцентильне перетворення при визначенні результатів тестування.

Дискусійним питанням є доцільність введення додаткових тестів з окремих дисциплін, зокрема — тестів з інформатики, правознавства, економіки, деяких мов національних меншин. Але існують певні технологічні обмеження на запровадження тих чи інших тестів ЗНО.

Стосовно тестів з мов національних меншин таким обмеженням є статистична природа результатів тестування. Для малих груп абітурієнтів, що складають той чи інший тест, статистична похибка стає неприпустимо високою й унеможливлює адекватне визначення результатів тестування. На мою думку, альтернативним варіантом, який можна було б розглянути, є складання зацікавленими особами стандартизованих тестів з рідної мови у відповідних країнах за організаційної допомоги відповідних дипломатичних представництв. Потім результати таких тестів могли б перераховуватися у стандартну шкалу ЗНО. Але існує й інше питання — на які напрями підготовки пропонується зараховувати результати відповідних тестів?

Стосовно тестів з правознавства і економіки існує інше застереження. Тут проблемою є малий термін вивчення відповідних дисциплін за шкільною програмою, що ускладнює розробку якісних тестів ЗНО.

Більш доцільним й обґрунтованим виглядає запровадження тесту з інформатики. З одного боку, така необхідність викликана збільшенням обсягів державного замовлення на підготовку фахівців з інформаційно-комунікаційних технологій. При вступі на відповідні напрями підготовки складання тестів саме з інформатики виглядає більш зрозумілим, ніж існуюча сьогодні альтернатива и вигляді «фізики» або «іноземної мови». В окремих випадках тести з інформатики можна було б використовувати як непрофільні і для вступу на інші напрями, оскільки практично всі університетські освітні програми передбачають наявність у майбутніх студентів певних компетенцій з інформатики. Як додатковий аргумент на користь такого тесту наводилось його потенційне сприяння покращенню рівня підготовки з інформатики у загальній школі. Але цей аргумент у рівній мірі стосується будь-якого з існуючих чи пропонованих тестів ЗНО.

При обговоренні питань вдосконалення ЗНО розглядалася й можливість застосування сучасних технологій комп’ютерного тестування через Інтернет. Особливо актуальною така можливість є для організації тестування з дисциплін, які складає невелика кількість абітурієнтів. У цих випадках виникають істотні організаційні складності з організацією тестування через необхідність прибуття абітурієнтів з віддалених населених пунктів до невеликої кількості використовуваних пунктів тестування. Крім того, комп’ютерне тестування дає змогу використовувати ширший набір типів завдань, зокрема — віртуальні експерименти з природничих наук, мультимедіа тощо, що надасть змогу отримати більш адекватні оцінки абітурієнтів. Але поки що це — справа майбутнього.

Підбиваючи підсумки цієї статті, хотілося б зазначити, що всі вказані (та багато інших) проблем, які існують в теорії та практиці ЗНО, не перекреслюють його головної переваги — ця технологія на сьогодні забезпечує найбільш об’єктивне порівняння абітурієнтів за визначеними критеріями. Далі можна уточнювати критерії, підвищувати точність оцінювання, вдосконалювати технологію, розвивати теорію. Все це потребує часу, фінансів та інших ресурсів. Тому більшість обговорюваних проблем неможливо вирішити швидко. Але й ігнорувати їх також не можна.

 

 [1]Соколов О.Ю. До питання практичного застосування методу м'якого коригування результатів тестування на основі аналізу складності завдань / О.Ю.Соколов, М.С.Мазорчук // Вісник ТІМО. — 2013. — № 7-8. — С.32-39.

[2]Бахрушин В. Наскільки якісними є тести ЗНО: http://education-ua.org/ua/articles/107-naskilki-yakisnimi-e-testi-zno.

[3]Метод порогових груп та його використання для аналізу результатів ЗНО / С.А.Раков // Вісник ТІМО. — 2013. — № 7-8. — С. 52-63.

 

Володимир Бахрушин, д.ф.-м.н., професор, академік АН вищої школи України

24.10.2013
Володимир Бахрушин
*
Поділитися

Додати комментар

Через сайт
Через Вконтакті
Через Фейсбук

Додати коментар


Захисний код
Оновити

Коментарі  

Автор: Сергей Васильев
Опубліковано 14.02.2014 в 09:01
Некоторые задания ЗНО действительно ужасны (если рассматривать их как критерии отбора абитуриентов на конкретные направления). Но еще ужаснее ответы многих абитуриентов.
Відповісти
Автор: Володимир Бахрушин
Опубліковано 21.02.2014 в 19:02
На самом деле здесь есть очень непростая задача. Многие тесты используются для отбора абитуриентов на разные, довольно далекие друг от друга направления подготовки. Можно было бы говорить о разработке разных тестов (по одному и тому же предмету) для разных направлений. Но сегодня это нереально. Возможно, есть смысл вернуться к идее, чтобы тесты были не столько инструментом отбора абитуриентов, сколько инструментом внешнего итогового оценивания выпускников. Тогда мы получим логичное завершение школьного образования с объективным контролем результатов. А вузы ничего не потеряют, т.к. с точки зрения содержания тестов ЗНО и сегодня не адаптировано к вузовским программам.
Відповісти
Автор: Ан_Петрик
Опубліковано 14.11.2013 в 10:12
Варто обговорити питання про необхідність використання ЗНО як інструменту підсумкової атестації випускників загальноосвітні х закладів та введення порогів склав / не склав. Тоді воно було б стимулом для підвищення якості освіти.
Відповісти
Автор: Володимир Бахрушин
Опубліковано 16.11.2013 в 20:11
В різних країнах є досвід використання стандартизовано го тестування як при вступі до ВНЗ, так і при атестації випускників загальноосвітні х навчальних закладів. Є також інші моделі його застосування. Але різні моделі потребують різних тестів і різних методик визначення результатів. На мою думку, в умовах, коли згідно з Конституцією України, держава бере на себе зобов’язання за бюджетні кошти надати всім громадянам якісну загальну середню освіту, використання ЗНО як форми державної підсумкової атестації є логічнішим, ніж його використання для відбору абітурієнтів ВНЗ. Але це потребує не тільки організаційних та фінансових витрат на зміну тестів і методик, але також і додаткового фінансування на тестування, бо його будуть проходити значно більше людей.
Що стосується порогів склав/ не склав, то я би погодився з пропозицією А. Забульоніса встановити такий поріг на рівні середнього балу (первинного), який може бути отриманий шляхом випадкового вибору варіантів відповідей. Разом з тим, на мою думку слід обговорити можливість інших порогів. Одним з них може бути поріг, який потрібно подолати для навчання за рахунок державного бюджету. Він може бути різним не тільки для різних дисциплін, а і для різних напрямів підготовки, залежно від кількості потрібних фахівців і кількості студентів, що обирають цей напрям. Другий поріг міг би мати такий сенс – абітурієнти, які його не подолали повинні включити до своїх індивідуальних навчальних планів відповідні корегувальні курси з метою підготовки до вивчення основних дисциплін спеціальності.
Відповісти
Автор: Володимир Бахрушин
Опубліковано 13.11.2013 в 18:19
Це питання сьогодні досить активно обговорюється. Багато фахівців вважають, що необхідно збільшити частку завдань з відкритими відповідями та завдань з розгорнутими відповідями, зокрема для тестів з математики й фізики. Основні заперечення полягають в додаткових організаційних проблемах. Зокрема завдання з відкритою відповіддю потребують складніших алгоритмів комп'ютерної обробки результатів, а завдання з розгорнутою відповіддю – залучення вчителів для їх перевірки.
Відповісти
Автор: Горбань Олександр
Опубліковано 12.11.2013 в 19:19
Якщо мета тестування – відбір абітурієнтів, а не інструмент державної підсумкової атестації, то відповіді на питання в тестах мають бути відкритими, які абітурієнт має конструювати. Тоді вплив вгадування, більш характерний для вибору із запропонованих відповідей, буде мінімальним. Має ставитися завдання виявлення уміння використовувати знання для пошуку відповіді, а не виявлення знає чи вгадав абітурієнт відповідь на поставлене запитання. Мій власний досвід багаторічного тестування студентів з фізики показує, що для фізики і математики такий підхід реалізувати не складніше, ніж підхід з вибором відповіді із запропонованих. Правильна відповідь має бути єдино можлива (число, знак, формула тощо).
Відповісти
Автор: Сергій Пархоменко
Опубліковано 04.11.2013 в 05:58
Завдання ЗНО потрібно ускладнювати. Сьогодні навіть високі бали ЗНО з математики не є гарантією належного рівня знань.
Відповісти
Автор: Володимир Бахрушин
Опубліковано 12.11.2013 в 06:16
Я думаю, що спочатку треба навчитися більш коректніше оцінювати рівень складності завдань. Далі необхідно скорегувати методику підбору завдань так, щоб вони не стільки відображали структуру шкільної програми (не виходячи при цьому за її рамки), скільки вимоги спеціальностей, для вступу на які необхідно здавати відповідні тести. Після цього можна зайнятися оптимізацією складності, так щоб в тестах були завдання різного рівня складності, в тому числі і достатньо складні завдання.
Відповісти
Автор: Іван Дудко
Опубліковано 02.11.2013 в 11:59
Погоджуюся з думкою автора статті в тому, що ЗНО потребує доопрацювання та вдосконалення.
На мою думку, проблемним питанням також є психологічна підготовка учнів до складання ЗНО. Вважаю, що у вирішенні данної проблеми особливу роль повинна відігравати психологічна служба школи.
Відповісти
Автор: Володимир Бахрушин
Опубліковано 03.11.2013 в 18:58
Це є ще одним важливим аспектом проблеми. Але чи здатна психологічна служба школи допомогти при підготовці до ЗНО. Особливо, якщо йдеться про сільські школи. Мабуть є сенс у створенні системи дистнційної психологічної підтримки?
Відповісти
Автор: Володимир Бахрушин
Опубліковано 28.10.2013 в 17:59
Деякі посібники з освітніх вимірювань: moodle.ndu.edu.ua/.../...
Відповісти
Наверх
Точка зору Аналітика Блоги Форум
Kenmore White 17" Microwave Kenmore 17" Microwave
Rated 4.5/5 based on 1267 customer reviews