Качество образования в высших учебных заведениях, определяется программами обучения и степенью освоения этих программ студентами. Последнее в большой мере зависит от уровня начальной подготовки абитуриентов, их мотивированностью на процесс обучения, окружающей средой и условиями проживания, уровнем финансирования вуза и объемом денежных средств, которым располагает студент. Связь объёма финансирования вуза с количеством обучающихся, а также сама возможность вести учебный процесс определяется аккредитацией вуза, успешное прохождение которой связано с рядом показателей, в число которых входит минимальный проходной балл по единому государственному экзамену (ЕГЭ), количество магистров и аспирантов, защитивших диссертации. В связи с этим необходимо осознано управлять процессом приема абитуриентов, обеспечивая достаточно высокий уровень начальной подготовки в рамках школьной программы, что весьма сложно обеспечить в условиях демографического кризиса и острой конкуренции государственных и негосударственных вузов. Поэтому важно исследовать от каких факторов зависит успеваемость, как она соотносится со структурой набора в вуз. Выяснение роли этих факторов должно позволить целенаправленно влиять на процесс обучения и при необходимости изменять структуру приема в вуз для повышения успеваемости. Для исследования этих факторов разработана база данных (БД) студентов эколого-мелиоративного факультета ВГАУ.
Опишем основные поля БД и предполагаемые зависимости, которые предстоит выяснить при интеллектуальном анализе данных:
Форма обучения и срок обучения (очная, заочная, полная, сокращенная), льготы при поступлении (на общих основаниях, льготы, целевики). Использование этих полей позволит соотнести уровень успеваемости с формой обучения и наличием или отсутствием льгот при приеме в вуз;
Место обучения: лицей, гимназия, городская или поселковая или сельская школа. Важно выявить, как влияет место получения среднего образования на результаты ЕГЭ и успеваемость в вузе, и рекомендовать факультативы для повышения опорного уровня знаний для части контингента;
Возраст при поступлении в вуз позволит выявить его роль на отношение к учебному процессу;
Число прогулов по неуважительной причине отражает отношение к учебе;
Средний балл в семестре отражает успеваемость;
Подготовительные курсы позволят выявить их влияние на успеваемость в вузе и обосновать их необходимость или отсутствие таковой;
Место проживания при обучении в вузе. Интерес представляет выяснение, как влияет атмосфера общежития и условия съемной квартиры на успехи в учебе. Будет предпринята попытка выявить влияние соседей при совместном проживании, их количества и успеваемости соседей. Важно подтвердить или рассеять мнение большинства родителей, что общежитие вредно влияет на учебный процесс. Возможно, наибольшее влияние оказывает не место проживания, а настрой на учебу и успеваемость соседей по проживанию, наличие или отсутствие компьютера, телевизора, степень увлеченности компьютерными и другими азартными играми;
Среднедушевой доход в семье. Выявление влияния этого фактора на успеваемость важно для адресной материальной поддержки студентов, которая может систематически производиться из внебюджетных фондов вуза, так и предоставлением возможности заработать студентам, участвуя в подготовке учебного процесса в качестве лаборантов или в проведении научно-исследовательских работ. Бытует мнение, что чем больше выделяют родители денег детям, тем они меньше учатся, а больше развлекаются. Подтвердить или отвергнуть это может анализ данных, учитывающий материальный достаток семьи.
Для интеллектуального анализа данных будут использоваться два программных средства: Deductor Studio и SPSS.
Deductor Studio — аналитическое ядро платформы Deductor. В Deductor Studio будет использоваться метод Knowledge Discovery in Databases (KDD) – извлечение знаний из баз данных. Это процесс поиска полезных знаний в «сырых данных». KDD включает в себя подготовку данных, выбор информативных признаков, очистку данных, применение методов DataMining, постобработку данных и интерпретацию полученных результатов. Привлекательность этого подхода заключается в том, что вне зависимости от предметной области для обработки данных можно применять одинаковые операции [1].
Для разделения множества студентов на сегменты с учетом большой совокупности признаков и их влиянии на успеваемость будет использоваться метод кластеризации (классификации) данных с использованием самоорганизующихся карт Кохонена на основе нейронной сети. Обучение карты заключается в последовательной коррекции векторов, представляющих собой аналог нейронов нейронной сети. На каждом шаге обучения из исходного набора данных случайно выбирается один из векторов, а затем производится поиск наиболее похожего на него вектора коэффициентов нейронов. При этом выбирается нейрон-победитель, который наиболее похож на вектор входов. Под похожестью в данной задаче понимается расстояние между векторами, обычно вычисляемое в евклидовом пространстве. После того, как найден нейрон-победитель, производится корректировка весов карты. При этом вектор, описывающий нейрон-победитель и векторы, описывающие его соседей в сети, перемещаются в направлении входного вектора.
IBM SPSS — набор инструментов для эффективного производства аналитической информации из данных, ее презентации и внедрения результатов. Решения на основе продуктов SPSS дают ответы на простые и сложные практические и научные вопросы. IBM SPSS Statistics образует модульный, полностью интегрированный программный комплекс, охватывающий все этапы аналитического процесса, а именно: планирование исследования, сбор данных, всесторонний анализ (от базовых процедур выведения итогов и классической статистики, до моделирования с применением новейших алгоритмов), создание отчетов, хранение и распространение результатов [2].
В IBM SPSS Statistics будет использоваться модуль Статистическая база, который предоставляет широкий диапазон статистических процедур для базового анализа и создания отчетов, включая частоты, сопряженности и описательные таблицы, кубы OLAP. Кроме этого, SPSS Statistics База предлагает широкий диапазон алгоритмов сравнения средних величин и методы прогноза, например t-статистику, дисперсионный анализ, линейную и порядковую регрессию, что позволит оценить достоверность полученных результатов.
ЛИТЕРАТУРА
Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере: учебное пособие. М., ИД "Форум", 2008; 368 с.