Разработка программного комплекса для автоматизированной проверки нормальности распределения и статистического анализа биометрических данных - Студенческий научный форум

XVIII Международная студенческая научная конференция Студенческий научный форум - 2026

Разработка программного комплекса для автоматизированной проверки нормальности распределения и статистического анализа биометрических данных

Мельников И.Д. 1, Жижина К.П. 1, Ананченко И.В. 1
1Санкт-Петербургский государственный технологический институт (технический университет)
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение. Проверка соответствия эмпирических данных нормальному распределению является обязательным этапом перед применением параметрических статистических методов в биологических исследованиях. Одним из классических способов такой проверки является критерий согласия χ² Пирсона. Его ручной расчет, включающий построение вариационных рядов, вычисление теоретических частот и сопоставление распределений, отличается высокой трудоемкостью и склонностью к ошибкам, особенно при работе с большими выборками данных.

Целью работы является разработка на языке Python с использованием библиотеки Tkinter специализированного программного обеспечения для автоматизации полного цикла статистического анализа биометрических данных с акцентом на проверку гипотезы о нормальности распределения по критерию Пирсона.

Актуальность разработки обусловлена повсеместной распространённостью нормального распределения в природе, следующей из центральной предельной теоремы. Поскольку многие параметрические критерии в биометрии требуют соответствия данных нормальному закону, автоматизация данного анализа становится практической необходимостью. Она позволяет ускорить обработку данных, минимизировать ошибки и сделать сложные статистические процедуры более доступными для исследователей в биологии и сельском хозяйстве.

Математическое описание и методы исследования. По правилу Стерджеса число интервалов вариационного ряда K (ед.) рассчитывается по формуле [1]:

где n — объем выборки, ед.

Расчет: определяет оптимальное количество групп для группировки исходных данных.

Выборочное среднее значение признака (г) определяется через соотношение [1]:

где ​ — середина i-го классового интервала, г; — частота встречаемости вариант в i-м интервале, ед.

Расчет: характеризует центральную тенденцию распределения массы орехов в выборке.

Выборочная дисперсия и среднее квадратическое отклонение s (г) определяется по формуле [1]:

Расчет: характеризуют вариацию (разброс) индивидуальных значений массы вокруг среднего.

Статистика критерия согласия χ² Пирсона рассчитывается по формуле [1]:

где ​ — наблюдаемое значение критерия Пирсона, безразмерная величина; ​ — эмпирическая (наблюдаемая) частота в i-м интервале, ед.; ​ — теоретическая частота для i-го интервала, рассчитанная в предположении нормального распределения, ед.

Расчет: служит для количественной оценки расхождений между эмпирическим и теоретическим (нормальным) распределениями.

Доверительный интервал для генеральной средней определяется по формуле [1]:

где ​ — критическое значение t-статистики (или z-статистики для больших n) для заданного уровня значимости α, безразмерная величина; s — выборочное среднее квадратическое отклонение, г.

Расчет: определяет диапазон, в котором с заданной доверительной вероятностью P=1−α находится истинное среднее значение массы орехов во всей генеральной совокупности.

Результаты исследования. Разработан программный комплекс на Python с графическим интерфейсом Tkinter, автоматизирующий полный цикл статистического анализа. Система выполняет проверку нормальности распределения по критерию χ² Пирсона и расчёт доверительных интервалов для параметров генеральной совокупности.

Интерфейс приложения представлен на рисунке 1. Он включает модуль импорта данных (CSV, Excel), настройку уровня значимости (α) и структурированный вывод результатов. Вычислительное ядро реализует построение вариационного ряда по правилу Стерджеса, расчёт выборочных характеристик, теоретических частот и статистики χ², а также определяет доверительные интервалы для средней и стандартного отклонения.

Результаты представлены детально, включая промежуточные вычисления. Модуль визуализации на Matplotlib создаёт аналитические графики: совмещённую гистограмму, график плотности нормального распределения и диаграмму доверительных интервалов.

Система стандартизирует процедуры проверки нормальности и оценки параметров, повышая воспроизводимость результатов и минимизируя вычислительные ошибки при обработке данных в исследовательских и прикладных задачах.

Исходный код проекта размещен в публичном репозитории на GitHub [https://github.com/0Kopeika0/DEVELOPMENT-OF-A-SOFTWARE-PACKAGE-FOR-AUTOMATED-VERIFICATION-OF-THE-NORMALITY].

Рисунок 1 – Главное окно программы

Перспективным направлением является развитие системы в универсальную платформу статистического анализа. Это включает внедрение альтернативных критериев нормальности (Шапиро-Уилка, Колмогорова-Смирнова) и методов для многомерных распределений. Практическую значимость усилит интеграция с системами сбора данных и внедрение устойчивых методов оценки. Переход к веб-архитектуре и облачным сервисам обеспечит широкую доступность и возможности для совместной работы. Создание специализированных модулей позволит применять систему в различных областях — от молекулярной биологии до промышленной стандартизации.

Выводы

Разработано программное обеспечение, автоматизирующее проверку нормальности распределения по критерию χ² Пирсона и оценку доверительных интервалов. Система с графическим интерфейсом Tkinter включает модули импорта данных, вычислительное ядро и визуализацию на Matplotlib. Её внедрение стандартизирует процедуры, сокращает время обработки, минимизирует ошибки и повышает доступность методов для специалистов. Перспективы развития связаны с добавлением новых критериев нормальности, интеграцией с системами сбора данных и переходом к веб-архитектуре для создания универсальной аналитической платформы.

Литература:

1. Катмаков, П. С.  Биометрия : учебник для вузов / П. С. Катмаков, В. П. Гавриленко, А. В. Бушов ; под общей редакцией П. С. Катмакова. – 3-е изд., перераб. и доп. – Москва : Издательство Юрайт, 2025. – 186 с. – (Высшее образование). ISBN 978-5-534-15732-1

2. Федоров, Д. Ю. Программирование на языке высокого уровня Python: Учебное пособие / Д. Ю. Федоров. – 2-е изд., пер. и доп. – Москва: Издательство Юрайт, 2019. – 161 с. – (Бакалавр. Прикладной курс). – ISBN 978-5-534-10971-9. – EDNWGENGH.

Просмотров работы: 35