Целью работы является ознакомление с существующими моделями построения контрольно-измерительных методов , а также общей архитектуры, объединяющей данные измерения в единый комплекс. Разрабатываемые модель и архитектура должны обеспечивать интеграцию в единый контрольно- проверочный комплекс.
Актуальность темы. Использование методов тестирования позволяет значительно упростить тестирование и диагностику знаний. Это особенно важно в современных условиях, когда стоит задача проверить знания определенного индивида.
Контроль уровня знаний является важной составной частью процесса обучения. Он обеспечивает обратную связь в системе «обучаемый - педагог». Контроль знаний выполняет в учебном процессе контролирующую, обучающую, диагностическую, воспитательную, мотивирующую и другие функции. Для управления процессом обучения на различных этапах, контролирующий специалист должен постоянно иметь сведения о том, как учащиеся воспринимают и усваивают учебный материал.
Предмет исследования.Правила создания тестов.
Источниковедческая база. В работе использована современная литература по информатике, технологиям тестирования, психологии, сосредоточенная в архиве «Российской Национальной Библиотеки» г. Санкт-Петербурга, а также материалы из мировой глобальной информационной сети Интернет.
Оглавление
ВведениеОпределение обязательного уровня общего среднего образования ставит проблему контроля за его достижением каждым обучаемым. Принципиальная трудность в решении этой задачи связана с тем, что проверка должна быть объективной и давать сведения о результатах процесса обучения. Итоговая оценка учителя не может быть использована в качестве объективной меры результатов обучения, так как она в значительной степени субъективна и выводится обычно на основе учета оценок при текущем контроле знаний. При объективном же итоговом контроле знаний и умений учащихся довольно часто обнаруживаются расхождения с итоговой оценкой учителя как в одну, Так и в другую сторону. Эти расхождения могут быть следствием не только субъективности оценки учителя, но и объективных изменений в качестве знаний в процессе обучения.
При систематическом проведении итогового контроля знаний учащихся с помощью тестов у каждого школьника появляется возможность оценить свои успехи по объективным критериям. Учителю же итоговые тесты дают достаточно полную картину успехов каждого обучаемого в овладении знаниями и умениями в соответствии с обязательными требованиями программы. Они помогают оказывать индивидуальную помощь каждому учащемуся в устранении обнаруженных пробелов в знаниях, корректировать деятельность учителя при обнаружении у значительной части учащихся неудовлетворительных результатов обучения по отдельным темам, выявлять особо одаренных школьников и оказывать им помощь в развитии способностей.
Таким образом, среди известных методов педагогической диагностики: наблюдение, опрос, анкетирование и т.д., наиболее ценным в обучении математике является именно метод тестирования.
Этот метод позволяет измерять и интерпретировать результаты обучения с большой долей объективности (равенство условий проведения работы и оценки результатов для всех учащихся), валидности (т.е. пригодности теста для измерения того, что он, по замыслу составителя, должен измерять) и надежности (устойчивости результатов, постоянства показателей при повторном тестировании).
Что же такое тест? Психологи, технологи, инженеры, медики, педагоги используют термин «тестирование», понимая под ним испытание дли выяснения свойств объекта, применяемое в сочетании с определенной методикой применения и оценки результатов
В педагогической диагностике под тестированием понимают исследовательские методы, с помощью которых выборка поведения, репрезентирующая условия или результаты учебного процесса, может быть измерена (максимально сопоставимо, объективно, надежно и валидно), обработана и интерпретирована (учителем или воспитателем) с целью использования результатов измерений в педагогической практике
Тестирование проводится как с отдельными лицами, так и в группе. Обычно используют групповые тесты, проводимые в школьных классах, так как они являются наиболее экономичными для преподавателя. Использование индивидуальных тестов (не считая тестов интеллекта, которые проводит преподаватель-консультант) рекомендуется только тогда, когда исследуемое невозможно измерить в условиях групповой проверки. Предположение будто при индивидуальном тестировании можно достичь более высоких результатов, не подтвердилось. В настоящее время групповое тестирование проводится чаще, чем индивидуальное, однако технический прогресс меняет ситуацию в пользу индивидуального тестирования.
С внедрением в образовательный процесс компьютеров возможности индивидуального тестирования многократно возросли. Компьютер позволяет задать жесткий режим тестирования (невозможность вернуться к предварительному ответу, фиксирование правильного ответа и т.п.) и строгую детерминированность вопросов. Возможно «разветвленное» тестирование, когда в зависимости от результатов, полученных на определенном блоке вопросов, обучаемый «переводится» на более высокий уровень. Такая организация тестирования способствует выявлению одаренности обучаемого.
Тесты, как система оценки школьной успеваемости, имеют целый ряд положительных характеристик, позволяющих:
учитывать индивидуальные особенности учащихся в ходе проверки результатов обучения;
проверить качество усвоения учащимися теоретического и практического материала;
оживить процесс обучения, вводя не только новую для учащихся форму контроля, но и различные виды тестов;
сэкономить учебное время, затрачиваемое на опрос, и личное время учителя, идущее ив проверку результатов выполненной работы;
использовать компьютерное тестирование;
обеспечить оперативность проверки выполненной работы.
Основные отличия тестов школьной успеваемости, например, от контрольной работы состоят в том, что с их помощью можно:
проверить большой объем изученного материала малыми порциями;
быстро диагностировать овладение учебным материалом большим количеством учащихся.
Однако метод тестирования обладает рядом недостатков:
большая вероятность выбора ответа наугад;
проверка лишь результатов действий;
невозможность проследить логику рассуждений учащихся;
категоричность оценки выполнения заданий, т.к. тесты учитывают только два состояния выполнения: задание выполнено правильно и полностью и задание не выполнено.
Поэтому тесты не могут служить единственной формой контроля качества знаний учащихся. Роль самостоятельных, контрольных и других видов работ по-прежнему высока.
В зависимости от оформления поля ответа различается три класса тестовых заданий:
Открытые тестовые задания - ответ не задан ни тестируемому, ни обработчику теста, как, например, в сочинениях, своих рисунках и т.п.
Полузакрытые тестовые задания - ответ известен только обработчику.
Закрытые тестовые задания - ответ задан как тестируемому, так и обработчику.
Каждый класс задания включает несколько видов заданий, так что в рамках создания их микроструктуры приходит к следующей систематике:
Открытые тестовые задания
Вид: открытые тестовые задания по формообразованию.
Вид: открытые тестовые задания на интерпретацию.
Вид: открытые ассоциативные задания.
Полузакрытые тестовые задания.
Вид: со свободным ответом.
Вид ассоциативные задания
Вид задания на дополнение.
Вид: задания ка подстановку.
Вид: задания на построение.
Вид: задание на изменение структуры.
III. Закрытые тестовые задания.
Вид: задание на интерпретацию.
Вид; альтернативные задания.
Вид: задания, предусматривающие выбор ответа.
Вид: задания, предусматривающие выбор на основе ассоциаций
Вид: задания, предусматривающие выбор на основе дополнения
Вид: задания, предусматривающие выбор на основе подстановки.
Вид: задания, предусматривающие выбор на основе расширения.
Вид: задания на установление связи.
Вид: задания на перестановку.
Вид: задания на репрезентацию.
Существует еще один вид – «смешанные формы».
Для практических целей достаточно разграничить свободную форму, предполагающую выбор ответа из нескольких предложенных ответов, так как при отсутствии поля ответа-по тестовому заданию невозможно определить, задан ответ обработчику или нет. Если сюда добавить наиболее употребительные формы заданий, то получится следующая классификация.
I. Свободная форма ответа
Тесты с пропусками
Задания на дополнение
Краткий ответ
Форма микросочинений
II. Формы, предполагающие выбор ответа.
Установление связи
Альтернативные формы
Выбор ответа.
Примеры:
1. Свободная форма ответа
1.1. Тесты с пропусками
В предложении опущены слова или части предложения, которые должны быть восстановлены после того как, понята вторая часть теста.
Пример.
Дан треугольник. Около него описали окружность и вписали в него окружность. Точка пересечения биссектрис является центром окружности, а точка пересечения серединных перпендикуляров является центром окружности
1.2. Задания на дополнение.
Здесь могут дополнятся некоторые рисунки, тесты, предложения, ряды чисел и т.д.
Пример.
Дополните: треугольники ABC и FDG подобны, коэффициент подобия равен 3. Площадь треугольника равна 108 см., площадь меньше треугольника равна … см.
1.3. Краткий ответ
Задание сформулированное вербально, графически или с помощи чисел, может быть использовано всегда, когда необходимо дать краткий правильный ответ
Пример.
Какое значение имеет «x» в уравнении 3b-1=bx
1.4. Форма микро сочинения
В этой форме реализуется попытка определить способности учащим корректно выражать свои мысли, избежав при этом трудностей, связанных с обработкой объемных сочинений (одно, два предложения (вопрос-ответ) )
Пример.
Как можно доказать теорему Пифагора?
2. Формы, предполагающие выбор ответа.
2.1. Установление связи.
Этот тип заданий подходит для опроса на знание фактов. Необходимо обратить внимание на то, что один из рядов содержит больше фактов, чем другой, с тем чтобы при установлении связи оставалась возможность выбора
1. Сумма углов треугольника равна
2. Сумма двух острых углов прямоугольного треугольника равна
3. Угол равен 40,а смежный с ним равен
4. Внешний угол треугольника равен 40 , а сумма двух несмежных с ним углов равна
5. В равностороннем треугольнике угол равен
A.90
B.50
C.30
D.40
E.180
F.60
G.45
Ответ: 1E, 2А, ЗВ, 4D, 5F.
2.2. Альтернативные формы.
При альтернативной форме предполагается лишь два ответа. Часто требуется обозначить предпосланную информацию как «истина» или «ложь», «соответствует действительности» или «не соответствует», «правильно» или «неправильно», «да» или «нет».
Пример.
Противоположные углы параллелограмма равны.
1.Да.
2.Нет.
Часто речь идет не об отношении к информации как «правильной» или «неправильной», а о наличии двух конкретных ответов, один из которых подходит.
Пример.
Дан треугольник ABC. Теорема косинусов для стороны ВС записывается так:
1.BC2=AC2+AB2-2*AC*AB*cosBAC
2.BC2=AC2-AB2-2*AC*AB*cosa
Задания этого вида особенно удобны для проверки языковых знаний. Чтобы нейтрализовать высокий процент отгадывания, необходимо предоставлять большое количество заданий.
2.3 Выбор ответа.
Эго чрезвычайно подвижная форма заданий, подучившая широкое распространение благодаря машинному способу обработки данных Она реализуется главным образом в своей разновидности "выбор правильного решения из четырех или пяти предложенных. Поэтому термин "задание с многократным выбором" является неточным, ибо сделать выбор можно только один раз. Разновидность этой формы предполагающая неопределенное количество решений из числа предложенных очень редка. Схему построения этой формы задания можно представить следующим образом.
Пример.
Какое чисто продолжит ряд?
5 35 28 4 11 77 70
А) 10 Б)17 В) 35 Г) 63
Кратко описанные формы заданий используются а очень разных гостях. Определять целевую установку теста по форме заданий удается редко.
Чтобы написать хорошее тестовое задание, необходим опыт и творческий подход.
Процесс создания теста, его научного обоснования, переработки и улучшения можно разбить на ряд этапов.
Определение цели тестирования, выбор вида теста и подхода к его созданию.
Анализ содержания учебной дисциплины.
Определение структуры теста и стратегии расположения заданий.
Разработка спецификации теста, априорный выбор длины теста и времени его выполнения.
Создание предтестовых заданий.
Отбор заданий в тест и их ранжирование согласно выбранной стратегии предъявления на основании априорных авторских оценок трудности заданий.
Экспертиза содержания предтестовых заданий и теста.
Экспертиза формы предтестовых заданий.
Переработка содержания и формы заданий по результатам экспертизы.
Разработка методики апробационного тестирования.
Разработка инструкций для обучаемых и для преподавателей, проводящих апробацию теста.
Проведение апробационного тестирования.
Сбор эмпирических результатов.
Статистическая обработка результатов выполнения теста.
Интерпретация результатов обработки в целях улучшения качества теста. Проверка соответствия характеристик теста научно обоснованным критериям качества.
Коррекция содержания и формы заданий на основании данных предыдущего этапа. Чистка теста и добавление новых заданий для оптимизации диапазона значений параметра трудности и улучшения системообразующих свойств заданий теста. Оптимизация длины теста и времени его выполнения на основании апостериорных оценок характеристик теста. Оптимизация порядка расположения заданий в тесте.
Повторение этапа апробации для выполнения очередных шагов по повышению качества теста.
Интерпретация данных обработки, установление норм теста и создание шкалы для оценки результатов испытуемых.[2]
Возникает своеобразный цикл, так как после чистки теста разработчику приходится возвращаться к этапу сбора эмпирических данных, причем, как правило, не один раз, а два, три и более. В определенном смысле этот цикл бесконечен, но не потому, что все задания плохи и разработчик не имеет достаточного опыта создания теста. Просто процесс конструирования теста довольно труден, поскольку необходим всесторонний подход к оценкам качества теста и характеристик тестовых заданий, к проверке их системообразующих свойств.
К тому же можно считать, что задача оптимального подбора состава теста не имеет единственного решения, так как не все здесь определяется качеством тестового материала, а многое еще зависит от уровня подготовки группы обучаемых. Задания, хорошо работающие на одной выборке обучаемых, могут оказаться совершенно бесполезными на другой, так как они будут или слишком легкими, или слишком трудными и их не выполнит правильно ни один ученик группы.
Успех создания теста во многом зависит от высокого качества начального тестового материала, которое обеспечивается правильным отбором проверяемого содержания и умением разработчика корректно отобразить его в заданиях теста. Крайне важен этап обработки эмпирических результатов тестирования, для выполнения которого необходимы специальные программные средства для профессиональной разработки тестов .
Конечно, далеко не всегда в процессе создания тестов необходимо достижение профессионального уровня качества, особенно если отвлечься от целей приема абитуриентов и аттестации выпускников. В повседневной деятельности педагога необходимы тесты разного, иногда невысокого качества, ориентированные на задачи текущего контроля. Выполнение последней задачи вполне по силам отдельному педагогу или группе педагогов. Однако и в этом случае можно самостоятельно сделать ряд расчетов, основанных на минимальном математическом аппарате и позволяющих значительно продвинуться от предтестовых заданий к настоящему тесту.
Тестовая форма ориентируется на нетрудоемкие задания и не требует от учащихся записей действий или рассуждений, ведущих к ответу Она позволяет сократить время на проведение работы и на проверку ее учителем, а также расширить тематику заданий.
Отметить стоит, что традиционные контрольные и самостоятельные работы не отвергаются, так как они имеют свои положительные особенности, основная из которых - возможность проверить ход решения задачи, рассуждения учащихся. Поскольку на сегодняшний день таких заданий разработано и опубликовано достаточно, то особое внимание уделяется проверочным работам (тематическим или итоговым) тестового характера и обобщим основные требования к таким проверочным заданиям:
тесты должны нести в себе содержательную валидность.
включать только те задания, которые изучались и являются системообразующими;
располагать задания по возрастанию трудности,
включать правдоподобные ответы при требовании выбрать правильный ответ.
Они должны быть функционально валидными, т.е. соответствовать выявляемому уровню.
Они должны быть просты, т.е. в одном тесте должны быть представлены задачи одного уровня.
В них не должно быть двусмысленных формулировок.
В них должна быть однозначность и правильность решения.
Стоит сказать еще о том, что тесты преподаватель может давать как письменно, так а устно, а с помощью компьютера соответственно и результат от ребят получать по тем же каналам
Требования к тестам как измерительному инструменту содержат требования к показателям качества тестов и требования к их оснащению. Такими показателями качества являются надежность и валидность тестового инструментария.
Надежность теста является одним из критериев качества теста и показывает, насколько точно измеряет данный тест изучаемое явление, его «помехоустойчивость».
Надежность теста, как правило, определяется после окончания анализа задач и составления окончательной формы теста, для ее определения проводится, как правило, специальная апробация теста.
Надежность характеризует точность теста как измерительного инструмента, устойчивость его к действию помех (состояния испытуемых, их отношения к процедуре тестирования, случайным ошибкам и т.п.). Качественный тест не может быть создан без тщательного изучения этого важного аспекта измерения. Использование ненадежных тестов, допуск большого количества ошибок в таком ответственном деле, каким является тестирование людей, может стать причиной педагогических и административных ошибок, последствия которых трудно исправить.
Ошибки при тестировании
Как и любая человеческая деятельность, тестирование содержит ошибки. При проведении тестирования возникают следующие виды ошибок: промахи, систематические и случайные ошибки.
Промахи возникают при грубых нарушениях процедуры тестирования. При наличии качественной инструкции по проведению тестирования и ее четком исполнении промахи встречаются довольно редко. Они могут быть легко выявлены и устранены путем анализа резко отклоняющихся значений, для этого анализа необходим критичный подход к анализу полученных результатов, особенно на этапах подготовки тестов и их первого использования. Здравый смысл и некоторая осторожность позволяют выявить и устранить причины промахов.
Систематические ошибки измерения возникают постоянно или закономерно меняются от измерения к измерению. В силу этих своих особенностей они могут быть предсказаны заранее, а в некоторых случаях и устранены.
Случайные ошибки имеют место, когда при последовательных измерениях постоянной характеристики получаются различные числовые оценки, т.е. при определении случайных ошибок предполагается, что измеряемая характеристика не изменяется во времени, а все отклонения
Тест называется надежным, если он является помехоустойчивым. То есть при проведении теста в других условиях он дает сходные результаты. Говоря о других условиях, мы должны помнить о том, что инструкция по проведению тестирования достаточно четко должна задавать условия для проведения тестирования, поэтому эти другие условия должны находиться в рамках, определяемых инструкцией.
Тест называется надежным, если он является внутренне согласованным (гомогенным, консистентным).
Определение надежности теста как инструмента устойчивого к помехам
На практике используются три основных метода оценки надежности тестов:
повторное тестирование (ре-тестирование) — определение помехоустойчивости;
расщепление группы — определение помехоустойчивости;
расщепление теста — определение внутренней согласованности.
В большинстве случаев надежность определяется как коэффициент
Источники неудовлетворительной надежности тестов могут быть разбиты на три группы - связанные с качеством теста, связанные с процедурой его проведения и оценивания и связанные с испытуемыми.
1. Величина теста. Чем длиннее тест, тем он надежнее. Поскольку, как мы уже отмечали, общая оценка теста состоит из истинной составляющей и ошибочной. Истинная составляющая несомненно больше ошибочной, и чем больше заданий в тесте, тем сумма истинной составляющей будет возрастать, а ошибочной соответственно уменьшаться.
Достаточно очевидно, что по результатам выполнения одного задания сложно судить о знаниях учащегося, поскольку велика вероятность случайности — с этим согласятся, пожалуй, все педагоги. А какое количество заданий достаточно для достоверного оценивания? Традиционные для нашей страны способы аттестации учащихся не дают обоснованного ответа на этот вопрос, и только в тестировании через определение надежности теста мы получаем обоснованный ответ.
2. Непонятность и двусмысленность заданий. Непонятные и двусмысленные задания приводят к тому, что ответы на них даются случайным образом. То есть в двух тестированиях будут получены разные результаты, таким образом, корреляция между результатами тестирований снизится, и, следовательно, надежность будет низкой.
3. Случайное угадывание правильных ответов, так же является причиной снижения надежности по причинам, описанным в предыдущем пункте. Еще раз подчеркнем нежелательность использования заданий альтернативных ответов в виде единичного утверждения. Для остальных видов заданий, при правильно выбранном времени тестирования, вклад случайного угадывания в общий показатель снижения надежности не должен быть значительным.
4. Субъективное оценивание. Результаты выполнения заданий должны оцениваться одинаково разными проверяющими. Мы достаточно подробно обсуждали требования к тестовым заданиям о необходимости однозначности правильного ответа. В том случае, если это требование будет нарушено, то будут допускаться различия между оценками разных проверяющих и между оценками одного проверяющего в разных случаях. Как следствие различных оценок корреляция между результатами выполнения тестирования будет уменьшена, и надежность теста будет невысокой.
5. Ошибки в подсчетах. В том случае, если задания имеют однозначную схему оценивания, причиной неудовлетворительной надежности могут стать случайные ошибки при подсчете баллов, их суммировании.
6. Инструкции для учащихся. Мы будем подробно обсуждать эти инструкции. В том случае, если задания имеют неясные, двусмысленные инструкции, то результаты двух тестирований будут существенно различаться, а надежность окажется невысокой.
7. Инструкции к тесту могут быть причиной низкой надежности. Инструкции должны обеспечивать одинаковость процедуры проведения тестирования, быть понятными и недвусмысленными. В том случае, если условия проведения тестирования в одном случае отличаются от другого, то и результаты тестирования в этих случаях будет невысокой.
8. Источники, связанные с испытуемыми: усталость, скука, невнимательность, жара или холод, самочувствие, различная мотивация, случайные ошибки и просчеты и т.д. Все эти факторы снижают надежность тестирования. Однако, в том случае, когда выборка для апробации теста достаточно велика, а инструкция для проведения четко определяет условия проведения (в том числе и влияние ситуативных отвлекающих факторов, таких как температура, освещение, запахи, шумность и прочие), то многие из перечисленных источников, связанных с испытуемыми, удается рандомизировать и они не могут оказать существенного влияния на надежность теста.
Исходя из перечисленных причин, можно наметить пути повышения надежности тестов — увеличение длины теста, проверка объективности оценочной схемы, снижение вероятности угадывания правильных ответов, ужесточение инструкций для учащихся, для ведущего, инструкций по проверке результатов тестирования, других инструкций, повышением качества инструктажа и подготовки ведущих.
Особое место при определении надежности занимают тесты, ориентированные на критерий. Как мы уже отмечали, в определенных случаях эти тесты могут содержать задания, с которыми справляются все учащиеся или не справляется никто из них. В этом случае рассчитанные показатели надежности будут иметь неудовлетворительные значения
Одной надежности для обоснования качества теста недостаточно. Еще одной важнейшей характеристикой теста является его валидность. Валидность особенно важна для тестов, ориентированных на критерий, поскольку определение надежности для этих тестов затруднено.
Валидность и надежность — связанные понятия.
Понятие «валидность» в силу многозначности очень часто вызывает путаницу не только среди педагогов, но и среди психологов. Причины этой путаницы, которая возникла в силу исторических, лингвистических и прочих причин, кроются в особенностях того, что этим термином именуется. Валидность определят, насколько тест отражает то, что он должен оценивать, но не только. Попытаемся разобраться в этом вопросе.
Отметим несколько особенностей определения валидности:
Валидность получается из экспертных оценок (не измеряется статистическими методами).
Валидность выражается степенью (высокая, средняя, низкая).
Валидность специфична для каждого конкретного использования.
Существует много способов определения валидности.
Отметим, в соответствии с другими подходами, часть показателей валидности может быть определена статистическими методами — корреляционным и факторным анализом.
Однако судить только по ним о валидности теста некорректно. Для оценки валидности должен быть рассмотрен комплекс возможных показателей.
На современном этапе развития тестологии и психодиагностики классификация валидности весьма условна. Этот факт определяется сложностью феномена валидности. Для различных видов валидности могут быть использованы одни и те же методы определения и, наоборот, одни и те же данные могут быть интерпретированы с точки зрения разных типов валидности.
Выделяют три основные вида валидности, которые имеют существенный отличающийся смысл:
Валидность по содержанию (содержательная) — основной вид валидности для тестов школьных достижений.
Содержательная валидность устанавливается экспертами для деятельности, близкой или совпадающей с реальной.
Определение содержательной валидности используется для тестов достижений и тестов профессиональной успешности, когда должен быть точно определен материал, применяемый для тестирования, и когда существует достаточная ясность смысла измеряемого параметра.
Очевидно, что содержательная валидность будет полезна только тогда, когда могут быть определены специальные навыки и особенности поведения. Это можно сделать довольно легко на элементарном уровне, при тестировании арифметических навыков (правил выполнения четырех арифметических операций, правил вычислений с 0 и т.п.), знаний в области искусства (знает ли испытуемый правила нотной записи, принципы архитектуры и др.), а также знаний базовых элементов для большинства научных дисциплин, в которых накоплен багаж фактических данных.
Содержательная валидность определяется на основе экспертных методов.
Рассмотрим следующие процедуры для определения содержательной валидности для тестов школьных достижений, ее вполне можно использовать с практическими целями:
Укажите точно категорию лиц, для которой предназначен тест.
Определите навыки, подлежащие тестированию; возможно, вам потребуется их проанализировать. Составьте список.
Передайте этот список экспертам в данной области (учителям и т.п.) для проверки - нет ли упущений.
Преобразуйте этот список в перечень заданий, используя, когда это возможно, равное количество заданий на каждый навык.
Представьте эти задания экспертам для проверки.
Подвергните задания обычным процедурам конструирования тестов. В результате должен быть получен содержательно валидный тест.
Как можно видеть, сама процедура создания тестов школьных достижений в том случае, если она не нарушается, дает хороший валидный инструмент, поскольку все этапы определения содержательной валидности «зашиты» в процедуру.
2. Конструктная (концептуальная) валидность. Этот вид валидности определяется в тех случаях, когда представление об измеряемом феномене (конструкте) существует только в сознании исследователя. Разработчик теста может лишь строить гипотезу о существовании данного конструкта, о его формах и характере проявления. Устанавливается конструктная валидность путем доказательства правильности теоретических концепций, положенных в основу теста, это особенно необходимо в тех случаях, когда результаты тестовых измерений используются не просто для предсказания поведения, а как основа для выводов о том, в какой степени испытуемые обладают некоторой характеристикой.
Рассмотрим проверку концептуальной валидности через три основных этапа:
1. Определение некоторой теоретической концепции, которая предположительно объясняет выполнение валидизируемого теста;
2. Из теоретической концепции выводятся одна или несколько гипотез, связанных с тестом;
3. Выдвинутые гипотезы подвергаются эмпирической проверке.
Если эмпирические данные подтверждают гипотезу, то тем самым подтверждается концепция, положенная в основу теста, и способность теста служить инструментом измерения данного конструкта. Ошибки при определении валидности могут возникнуть как следствие неправильной теоретической концепции, положенной в основу теста, или отсутствия соответствия между тестом и теоретической концепцией, или ошибочного выдвижения гипотез.
В рамках конструктной валидности выделяют:
Дифференциальная валидность — рассматривает не отдельные конструкты, а взаимодействие между психологическими факторами внутри одной тестовой методики.
Валидность по возрастной дифференциации — определяет возможность использования теста для разных возрастов испытуемых. Используется в том случае, когда изучаемый феномен имеет большую динамику развития. Определение этого вида валидности для тестов школьных достижений должно дать ответ на вопрос о том, в каком временном интервале возможно корректное использование тестов школьных достижений, ответ на тот вопрос, который мы ставили ранее. Например: разработанный инструмент должен быть использован не позже чем через неделю после прохождения темы, или использование тестов целесообразно в первые две недели третьей четверти и т.д. К сожалению, найти факты обоснования календарных периодов применения тестов школьных достижений, то есть определения валидности по возрастной дифференциации, в отечественной практике тестирования не удалось.
Непосредственно для тестов учебных достижений другие виды конструктной валидности не используются, однако овладение этим методом может быть чрезвычайно полезно для некоторых элементов, используемых при создании тестов, поскольку он дает возможность обоснования истинности, реальности существования понятий и явлений.
3. Валидность по критерию (критериальная или эмпирическая валидность).
Валидность по критерию или эмпирическая валидность является третьим основным видом. Суть ее заключается в определении способности теста служить индикатором или предсказателем строго определенной психической особенности, формы поведения человека и др.
В рамках валидности по критерию выделяют два основных вида:
Текущая (диагностическая, конкурентная) валидность — характеристика теста отражать его способность различать испытуемых на основании того признака, который является объектом выявления в данной методике. Именно этот вид валидности в большей степени подходит под общее определение валидности тестового инструментария.
Прогностическая валидность — информация о том, с какой степенью точности мы можем судить об выявленном в результате тестирования качестве спустя определенное время после измерения, то есть определяет временной интервал, в течение которого результаты и выводы могут иметь силу.
Валидизация теста по критерию состоит в сравнении результатов, полученных испытуемыми за решение теста с данными по критерию, и вычислении коэффициента корреляции тестового результата с внешним критерием. В качестве критерия может выступать любой показатель, независимо и бесспорно измеряющий ту же психологическую характеристику, что и валидизируемый тест.
Синтетическая валидность — еще один вид текущей или прогностической валидности по сложному критерию. Например, тест может содержать вопросы на анализ грамотности, способностей считать, навыков делового общения, умения пользоваться оргтехникой и т.д.. Все эти способности могут быть объединены понятием успешности трудовой деятельности работника офиса, именно для определения корректности такого объединения и служит синтетическая валидность.
Валидность можно разделить по способам определения:
Виды валидности, которые не определяются количественно или качественно.
Собственно говоря, с этими видами валидности произошло скорее всего терминологическое недоразумение, поскольку они не соответствуют общему определению валидности, но тем не менее они имеют название валидность и с этим следует считаться.
Очевидная (внешняя, доверительная) валидность - это валидность с точки зрения испытуемого. Объективно не устанавливается. Она означает то, насколько адекватно впечатление о предмете измерения, которое формируется у испытуемого при знакомстве с инструкцией и материалом теста тому, что данный инструмент в действительности выявляет. Очевидная валидность играет важную роль в процессе тестирования, поскольку именно она определяет отношение испытуемого к обследованию. Так, тест может не вызывать доверия, если в нем отсутствуют знакомые, традиционно используемые испытуемым термины, понятия, слова, определения. Известны случаи, когда отказ от выполнения теста обосновывался именно не соответствием используемой в тесте терминологии реально существующей.
Очевидная валидность может быть присуща тесту, а может нет. Это зависит от целей исследования. Для большинства тестов достижений очевидная валидность — позитивное либо нейтральное качество, поскольку нет достаточных оснований скрывать от испытуемых реальные цели тестирования.
Завышенная очевидная валидность провоцирует проявление эффекта контаминации критерия, т.е. его искажения.
Валидность иллюзорная (ложная, эффект Барнума) — иллюзия соответствия заключения по результатам тестирования личностным характеристикам обследуемого. Например, почти всеми людьми будут восприняты такие общие характеристики, как «разумный в выборе цели», «стремящийся к лучшему», что создает эффект соответствия заключения качествам испытуемого.
Для определения содержательной валидности теста школьных достижений минимально необходимо:
а) в соответствии с целевыми установками разработать технологическую матрицу;
б) провести ее тщательную экспертизу;
с) в соответствии с технологической матрицей составить тестовые задания;
д) дать экспертные заключения на соответствие тестовых заданий технологической матрице;
е) сообщить о проделанных работах в спецификации теста или инструкции для ведущего.
Для всех тестов учебных достижений должна быть оценена содержательная валидность.
Для тестов, используемых для аттестации учащихся, содержательная и (очень желательно) критериальная валидность.[3]
Проверка тестовых работ, при условии качественного теста и ключей не должна вызывать заметных трудностей. Желательно, чтобы была составлена инструкция по проверке тестовых работ, в которой должны быть ясно и недвусмысленно описаны алгоритм действия проверяющих, особенности оценивания разных видов заданий, способы перепроверки, действия проверяющих в «нештатных» ситуациях.
Технологию проверки лучше оформить в виде инструкции, поскольку это способствует единообразию проверки и перепроверки, позволяет осуществлять действенный контроль за действиями проверяющих, обладает еще целым рядом преимуществ.
Система оценивания учащихся по результатам тестирования содержит, наверное, максимальное количество достаточно нелепых стереотипов, домыслов и ошибок. Основной негативный стереотип, присущий педагогам с большим стажем, заключатся в том, что отличную оценку можно ставить только в том случае, когда обучаемый справился со всеми заданиями. Еще один стереотип заключается в том, что для получения положительной оценки достаточно ответить более чем на половину заданий в тесте. Многие авторы книг с названием «Тесты по...» вообще не предлагают никакой оценочной шкалы.
В одной из работ можно найти такие рекомендации:
«Мы предлагаем оценивать ответы учащихся по следующей системе:
а) оценку «5» («отлично») получают учащиеся, справившиеся с работой полностью;
б) оценка «4» («хорошо») может быть поставлена в том случае, если верные ответы составляют 80% от общего количества вопросов;
в) оценке «3» («удовлетворительно») соответствует работа, содержащая 50—70% правильных ответов».
Однако за рамками рассмотрения остаются вопросы о том, почему же все-таки именно за 80 процентов нужно ставить оценку «4». Какую оценку, следуя этим рекомендациям, должен получить обучаемый, выполнивший 75 процентов заданий, в каких случаях за 60 процентов выполненных заданий ставится оценка «3», а в каких «2».
В другой работе можно найти рекомендацию по использованию равномерной шкалы:
Оценка знаний учащихся по итогам выполнения теста может производиться по шкале:
Число правильных ответов 0-2 3-4 5-6 7-8 9-10
Оценка в баллах 1 2 3 4 5
В данном случае остаются все те же вопросы: почему за такое количество верно выполненных заданий нужно ставить именно этот балл.
И еще один пример, который можно было бы не приводить, однако он опубликован под названием
Оценка «3» — промежуточная. Она означает, что тестируемый выбрал формально правильный ответ и в некоторой степени углубился в текст изучаемого материала, но недостаточно.
Оценки «4» и «5» предполагают хорошее или отличное усвоение материала, достаточно глубокое проникновение в художественный мир произведения, отличное знание истории и теории литературы.
Оценка «5» означает абсолютно правильный ответ, отличающийся точностью и глубиной.
Оценка «4» говорит о том, что ответ правильный, в нем лишь упущены определенные нюансы, иными словами, «хорошо, но можно было бы и лучше».
В данном случае, такие рекомендации по оцениванию напрочь перечеркивают все старания сделать тесты хоть в какой-то мере объективным инструментом.
Среди рекомендаций можно встретить и еще одну, когда вопрос оценивания целиком перекладывается на плечи пользователя, то есть учителя, авторы снимают с себя, таким образом, всякую ответственность за результаты использования предлагаемых материалов.
Попытаемся разобраться в поставленных вопросах.
В начале работы было показано, что одно из преимуществ, которыми обладают тесты по сравнению с другими видами измерений,— это то, что они имеют основания для сравнения. Для тестов, ориентированных на критерий, — это полученный на основе экспертных оценок критерий значимости, превысив который считается, что обучаемый справился, готов, прошел и т.д. в зависимости от целей тестирования. Для нормативно-ориентированных тестов основанием для сравнения служат статистические нормы. Следовательно, возможно сравнение показателя некоторого испытуемого с таковыми в репрезентативной выборочной совокупности или других релевантных группах, что в конечном счете дает возможность адекватной интерпретации полученного показателя. Из сказанного следует, что нормализация тестов наиболее важна в тех случаях, когда осуществляется явное или неявное сравнение показателей испытуемых, как, например, при итоговой аттестации.
Отдельно можно назвать случай, когда тестирование проводится с целями отбора. Эти тесты, являясь нормативно-ориентированными, не требуют разработки норм. Для их применения достаточным оказывается знания места обучаемого в ряду тех, кто вместе с ним проходил испытание. Например, в том случае, если нам необходимо отобрать 25 человек для продолжения образования, то нам достаточно сделать ранжированный ряд по результатам проведения тестирования и отобрать 25 обучаемых с лучшими результатами.
Некоторые возможные ошибки при проверке тестовых работ и рекомендации по их устранению содержатся в инструкциях :
Оформление работы. «Такие критерии как: точность, творчество и хорошее оформление ответа (почерк, аккуратные рисунки) принимаются во внимание в оценке одними проверяющими, а другими воспринимаются как малозначительные детали. Инструкции должны прояснить, до какой степени эти моменты могут влиять на конечную оценку.
Знание об экзаменуемом из других источников. К сожалению, проверяющие стремятся дать высокую оценку тому экзаменуемому, который до того хорошо занимался. Чтобы этого избежать, должен быть второй проверяющий или оценивание должно быть анонимным, т.е. проверяющий не может определить личность экзаменуемого.
Влияние предшествующей оценки. Если экзаменуемый имеет слабую подготовку, то проверяющие имеют тенденцию оценивать последующие ответы более снисходительно. Этого можно избежать, если оценивать сначала ответ всех экзаменуемых на 1-й вопрос, потом на 2-й и т.д., при этом меняя последовательность экзаменуемых с каждым новым вопросом».
Следует заметить, что на данном этапе развития нашей образовательной системы мы придерживаемся традиционного для российской школы подхода и не считаем, что тесты могут заменить обычные контрольные и самостоятельные работы. Основная функция тестов - диагностическая. Они помогают учителю довольно быстро получить первую информацию об уровне обученности по данной конкретной теме от каждого обучаемого. Эта информация позволит более целенаправленно готовить к итоговому контролю в традиционной форме, откорректировать некоторые элементы темы.
Тесты у большинства учащихся вызывают интерес, часто воспринимаются как игра, что помогает снимать некоторую психологическую напряженность, которая особенно в начале изучения темы.
В процессе экспериментальной работы сформировался ряд принципов проведения тестирования:
1. Время выполнения тестов сообщается обучаемым и преподаватель должен сам это требование строго выполнять.
2. Время ознакомления с инструкцией не засчитывается во время выполнения теста.
3. Во время выполнения теста должна быть исключена возможность списывания или подсказки.
4. Обучаемому должна быть известна зависимость оценки от количества правильных ответов.
5. От тестируемого не требуется дополнительных записей, кроме заполнения предлагаемого поля ответов.
В учебных заведениях практикуются разнообразные формы проведения тестов. В некоторых случаях требуют, например, письменного подтверждения решения, содержащего главные выкладки, рассуждения. Такой подход противоречит классическому, хотя и существует смысл с точки зрения исключения простого угадывания. В этом случае явно проигрывает оперативность проверки.
В заключении хотелось бы отметить, что в последние годы на страницах научно-методических газет и журналов активно обсуждаются вопросы, касающиеся тестирования. Печатаются различные тесты, разработанные как научными коллективами, так и отдельными учителями. Для того, чтобы применять тесты в своей работе, преподаватель должен уметь оценить предлагаемый тест. Надеемся, что данное пособие будет выполнять роль помощника в такого рода деятельности.
Список литературы1. Гаврилова М.А.,Тестирование: теория, технология, примеры :Учеб.-метод. пособие для студентов пед. вузов физ.-мат. фак. и учителей математики - Пенза: ПГПУ, 1999. - 51 с. : ил. ; 21 .
2. Челышкова М.Б., Теория и практика конструирования педагогических тестов: Учебное пособие. - М.: Логос, 2002. - 432 с.: ил.
3. Майоров А.Н., Теория и практика создания тестов для системы образования: Учеб. пособие - М.: Интеллект-центр, 2001.- 296 с.