BSSL

Создание тестов и компьютерное тестирование

Екатерина Орел, Александр Прохоров

Тестирование возникло потому, что человеку захотелось узнать, чем и насколько он отличается от других людей, причем желательно, чтобы эти различия выражались точными количественными значениями по четко определенным параметрам. Так и появился основной принцип тестирования - выполнения одинаковых (или эквивалентных) для всех коротких заданий, по результатам которых люди сравниваются между собой. Вообще, тесты - это короткие испытания, задания человеку, построенные и отобранные согласно определенным правилам, по результатам которых можно получить какую-либо информацию о нем. Информация эта может быть самая разнообразная, но в конечном счете на ее основе можно определить, обладает ли человек тем или иным качеством, способностью, знанием. О том, как составлять и использовать тесты, и пойдет речь в нашей статье.

Виды тестов

Тесты можно разделять по многим признакам. Основная классификация - по направленности теста: оценивать можно способности человека, его личностные качества, интеллект, отдельные психические функции (внимание, память, воображение), знания.

Первая группа тестов оценивает так называемые специальные способности человека, к которым, например, относится музыкальный слух или художественные способности. В составлении подобных методик обычно участвуют специалисты в этих областях, и состоят они из практических заданий, которые должен выполнить респондент. Наличие компьютеризованных версий таких тестов вполне возможно, как правило, в специализированных музыкальных или графических пакетах.

По-иному обстоит дело с другими группами. Все эти методики обычно состоят из вопросов, задач или утверждений, к которым предлагается несколько вариантов ответа. Редко когда респонденту нужно вводить ответ самому - большинство современных методик состоят из так называемых закрытых вопросов с фиксированными вариантами ответа, из которых респонденту и предлагается выбирать.

Личностные тесты оценивают выраженность у человека таких качеств, как общительность, дружелюбие, активность, ранимость, мечтательность, тревожность - то, что на ненаучном языке называется характером. Человеку предлагается ответить на вопросы о его убеждениях, поступках, мотивах, намерениях, и на основе его ответов делается вывод о том, какими личностными качествами он обладает. Конечно, здесь существует вероятность получить не реальную картину личности человека, а портрет того, кем он хотел бы быть или казаться в глазах психолога. Во избежание этого составители тестов используют различные приемы, о некоторых из них мы поговорим далее.

Тесты отдельных психических функций, таких как память или внимание, часто применяют для отбора на работу. Обычно здесь требуется за ограниченное время выполнить большое количество довольно простых задач, где главное - сконцентрировать внимание на задании (если тест на внимание) или запомнить и правильно воспроизвести материал (память). Отдельные задания из таких методик могут входить в тесты на уровень интеллекта.

Интеллект был первым объектом тестирования в психологии. В начале ХХ века современная психодиагностика началась именно с того, что был составлен тест интеллекта для отбора детей в школу. Тесты интеллекта измеряют математические и вербальные способности, пространственное и логическое мышление, эрудицию. Вопросы обычно представляют собой задачи, ответ на которые требуется выбрать из предложенного списка, причем, как правило, время на выполнение таких тестов ограничено. Важно сбалансировать задания по сложности - чтобы не получилось так, что взрослый показывает высокие результаты в тесте для третьеклассников, а школьник по результатам тестирования окажется умственно отсталым, потому что вопросы были составлены для студентов. Для тестов интеллекта очень важно точно установить область их применения с учетом и возраста, и уровня образования, и социального статуса респондентов. С примером такого рода тестов можно ознакомиться у нас на сайте.

И наконец, тесты знаний - это, пожалуй, самый широко используемый вид тестов. Их обычно составляют для проверки знаний в тех или иных областях. Широко используются тесты по школьной или институтской программе, для итогового или текущего контроля, тесты знаний в той или иной профессии, при проведении аттестаций, экзаменационные тесты в языковых школах или при приеме экзаменов в ГАИ. Таких примеров можно назвать множество. Состоят подобные тесты обычно из вопросов и/или задач из какой-либо области знания, а от респондента требуется выбрать единственно правильный (или несколько правильных) ответ из предложенного списка.

Конструирование тестов

При создании теста первым делом следует определить его назначение. Если вы решили разрабатывать собственную методику, нужно четко знать, для чего нужен тест и чем вас не устраивают существующие аналоги. Цели могут быть любыми: от глобальных (выявить всех потенциальных преступников) до сугубо практических (проверить, как ребенок усвоил программу для самостоятельного изучения). Определив общую цель тестирования, нужно разобраться с тем, какие свойства необходимо проверить. То есть не личность вообще, а, к примеру, общительность, ранимость и тревожность; не интеллект в целом, а вербальное или логическое мышление. Эти свойства на языке психодиагностики называются факторами, и их набор должен отражать цель, ради которой тест разрабатывается.

Дальше следует самая интересная часть работы, где автор теста может проявить воображение и смекалку, - это разработка заданий. И если с тестами знаний и интеллекта все более-менее ясно (нужно составить набор задач для каждого фактора, адекватный по содержанию и уровню сложности той цели, для которой тест создается), то для тестов личности все несколько сложнее и, в некотором смысле, интереснее.

Каждое задание должно быть сформулировано четко и ясно. Это относится ко всем видам тестирования, но особенно актуально для тестов личности, где в заданиях часто используются утверждения, которые могут быть истолкованы неоднозначно. От того, как человек их поймет и как на них ответит, и будет зависеть информация о нем. В то же время нужно стремиться к тому, чтобы респондент не мог догадаться, на оценку какой черты личности направлен вопрос (иначе велик риск получить не реальное мнение респондента, а его точку зрения на то, какой она должна быть).

Еще один важный аспект: задания должны отражать конкретные аспекты поведения человека. Например, лучше спросить <Как часто Вы занимаетесь спортом?> с вариантами ответа: <Раз в месяц>, <Раз в две недели>, <Раз в неделю>, чем <Нравится ли Вам заниматься спортом?>. Дело в том, что человеку может нравиться заниматься спортом, но он всего два раза за зиму встает на лыжи. Лучше не использовать слова <часто>, <редко>, <иногда> без уточнения временных интервалов, потому что понимание таких интервалов у каждого человека свое.

Критически важно в личностных тестах, чтобы каждый вариант ответа воспринимался как вероятный, возможный. Даже в самой скользкой теме ни в вопросе, ни в вариантах ответа не должно отражаться отношение к ней автора вопроса. Иначе, почувствовав, какой ответ от него ожидается, респондент может исказить картину.

При составлении вопросов для теста личности нужно также учитывать желание респондента показать себя в выгодном свете. Один из способов избежать этого - поймать респондента на противоречии или на том, что он соглашается с утверждениями, которые на первый взгляд отражают мнение большинства, а по сути - не имеют смысла (например: <Считаете ли Вы, что любой выбор, доведенный до конца, является правильным?>). Борьба с этим явлением открывает дополнительный простор для фантазии автора теста.

Правильно подобрать варианты ответа - тоже целое искусство. В современных личностных тестах обычно ограничиваются двумя-тремя вариантами. Использование большего количества вариантов чревато тем, что респондент будет быстро уставать, читая длинные тексты и пытаясь примерить каждый ответ на себя. В тестах знаний и тестах интеллекта обычно используют три-четыре варианта.

Разработчики тестов знаний сталкиваются с другой проблемой. В таких тестах, в отличие от тестов личности, есть правильные ответы. Выбор респондентом этих ответов показывает, что он знаком с предметной областью, знает материал. И респонденту, как правило, интересно показать как можно лучший результат. Даже не зная материала, он будет стремиться угадать верный ответ, ответить в соответствии со своей интуицией. И задача составителя теста - поймать респондента на этом.

Для этого разработчики используют знания о стратегиях угадывания правильных ответов, которые респонденты используют чисто интуитивно. Обратите внимание, респондент полагается на интуицию, пытаясь угадать верный ответ, а разработчик теста должен заранее знать, что может стоять за этой интуицией, и идти на полшага впереди.

Итак, если респондент не знает настоящего правильного ответа, в своем выборе он будет действовать следующим образом:

предпочитать более развернутые, более обоснованные ответы, которые учитывают частные случаи, и избегать кратких, менее развернутых. Разработчик теста знаний может этим воспользоваться и сделать верный ответ кратким;
если ответы образуют последовательность (например, на вопрос о дате Куликовской битвы: (1) 1200 год, (2) 1240 год, (3) 1300 год, (4) 1380 год), респондент будет стремиться дать средний ответ, предполагая, что правда в золотой середине. И ошибется, потому что Куликовская битва была в 1380 году, а автор задания позаботился о том, чтобы поставить верный ответ с краю;
выбирать более наукообразные ответы, содержащие малоизвестные или иностранные слова;
выбирать ответы, напоминающие по стилю написания что-то очень знакомое, ассоциирующееся с известной частью предметной области.
В любых тестах для каждого тестового задания существует понятие ключа - это ответ, который несет информацию об испытуемом по одному из факторов теста. Если респондент выбрал ключевой ответ, ему начисляется определенное количество баллов. Количественный результат теста складывается именно из совпадений ответов респондента с ключевыми.

Для того чтобы подготовить тест к выходу в свет, нужно добавить к вопросам инструкцию и интерпретацию. Инструкция - это вводная часть, где вы знакомите респондента с тестом, объясняете, на что он направлен (причем для психологических тестов это объяснение вовсе не обязательно должно совпадать с истинными целями автора), каковы особенности работы с ним (сколько вопросов, сколько вариантов ответа, есть ли временные ограничения). Интерпретация - это результаты конкретного респондента, которые он получает после работы с тестом. Это может быть описание его сильных и слабых сторон, а также рекомендации, как развивать в себе то или иное качество. Получение интерпретации - это основной мотив, который движет людьми, проходящими тест: узнать о себе что-то новое или проверить уже имеющиеся знания - поэтому ее составлению следует уделить особое внимание. Важно написать и о сильных, и о слабых качествах человека (или о сферах его знания), не унижая его человеческого достоинства. Рекомендации должны быть советами, а не прямым руководством к действию: что бы ни показал респондент в ходе теста, мы не имеем права указывать ему единственно правильный путь к исправлению.

Итак, тест готов, введен в программу и может использоваться. Но встают новые вопросы: что делать с полученным баллом, какой результат считать высоким, а какой - низким, можно ли сравнивать между собой результаты по разным методикам. На эти вопросы должна дать ответ стандартизация теста. Это процедура предварительной <обкатки> методики, когда мы уточняем, как она работает. Ее должны пройти любые тесты, претендующие на звание профессиональных. В первую очередь нужно проверить получившийся тест на небольшой группе людей, схожей по составу с той, на которой потом планируется его использовать. Затем обработать их результаты, чтобы посмотреть, как они отвечали на задания. Из этих ответов складываются так называемые тестовые нормы, которые служат отправной точкой для сравнения результатов между собой. Нормы по фактору теста в самом общем виде - точки на шкале возможных баллов, разделяющие респондентов на группы. Обычно таких групп три: высокая (те, у кого большинство ответов совпало с ключом), средняя и низкая (те, у кого таких совпадений минимум). Но просто по набранному баллу нельзя определить, к какой группе относится человек. Если он получил 80 баллов из 100, то само по себе это еще ничего не означает. Большинство других респондентов могли получить как 50, так и 90 баллов, и именно это даст возможность отнести его к той или иной группе.

От того, в какой группе находится респондент, напрямую зависит то, какую интерпретацию он получит. Низкая группа - это слабая выраженность признака (низкий уровень знаний) или его сильно выраженная противоположность (например, низкие математические способности, если получен низкий балл по соответствующей шкале, или выраженная замкнутость, если низкий балл получен по шкале <общительность>). Высокая группа - это соответственно высокая выраженность признака (или продемонстрированного уровня знаний). Со средней группой все обстоит несколько сложнее. С одной стороны, трактовать ее довольно сложно - это средний результат, ни рыба ни мясо. Обычно люди, попадающие в среднюю группу, ведут себя по-разному, в зависимости от ситуации (в кругу друзей они могут быть душой компании, а с новыми людьми - молчаливыми и замкнутыми), но могут показывать знания лишь в отдельных областях. В то же время средний балл обычно набирает большинство людей (вспомним, что на этом и строится подсчет норм), и потому ничего не сказать человеку тоже нельзя.

Итак, стандартизация проведена, нормы к тесту получены, но параллельно с этим интересно посмотреть, как люди отвечают на вопросы теста. Основной признак хорошего вопроса - если по ответам на него можно разделить людей на обладающих и не обладающих измеряемым признаком (получающих высокие баллы по тесту знаний или низкие), если по ответу на каждое из заданий теста можно предсказать, попадет человек в высокую или низкую группу. Вопросы, по которым люди делятся на две более-менее равные группы, считаются хорошими и остаются в тесте. Плохо работающие вопросы обычно отбрасываются, и им придумывается замена, которую потом тоже стоит проверить.

Правда, еще нужно оценить, тот ли признак измеряется тестом, соответствуют ли результаты тому, что нам необходимо. Вопросы могут четко разделять людей, но совершенно не по тому признаку. Чтобы это проверить, нужно сравнить результаты теста с каким-нибудь внешним критерием, также имеющим отношение к измеряемому свойству. В качестве такого критерия может выступать как другой тест, о котором уже известно, что он измеряет, либо любой другой параметр (например, школьные оценки или уровень заработной платы). Если такое соответствие найдено - это показатель валидности методики. Более подробно о том, как считаются стандартизованные баллы, можно прочитать в статьях о конструировании тестов и о способе подсчета баллов.

Еще одна вещь, которую нужно проверить перед тем, как тест будет готов, - насколько его результаты устойчивы. Не секрет, что в зависимости от настроения, самочувствия, под влиянием обстоятельств человек может отвечать на вопросы по-разному. Но есть некие устойчивые особенности поведения, которые проявляются в любой ситуации, - именно они чаще всего и интересны. Поэтому хорошо бы проверить надежность теста, к примеру, проведя его еще раз на той же группе респондентов и сравнив результаты.

И только после этого тест по-настоящему готов к использованию. Все профессиональные методики строятся именно по такому принципу. Работа эта довольно кропотливая, требующая психологической смекалки, способности увидеть, что стоит за поведением человека, и учитывающая особенности предметной области знаний, а также владения простейшими приемами статистического анализа. Все подсчеты уже давно перепоручены электронным таблицам и статистическим пакетам, главное - знать, что считать, и уметь правильно эти инструменты применять.

Статья также опубликована в журнале "КомпьютерПресс, №6, 2006 г.

Пользовательское соглашение
Политика конфиденциальности