Рис. 1. Схема развития патологического процесса
Оценка состояния здоровья женщины предполагает постоянное наблюдение за ее организмом. Проблема описания живого организма в целом далека от своего решения вследствие большого многообразия и сложности, протекающих в нем взаимосвязанных процессов, недостатка априорной информации об условиях существования и свойствах исследуемых биосистем. Основная проблема оценки параметров состояния биосистем заключается в разнородности и фрагментарности первичных биомедицинских данных и, как следствие, ограниченности их содержательного анализа традиционными статистическими методами. Для установления правильного диагноза необходимо проанализировать большое количество признаков, для этого используются различные методы математической статистики. Рассмотрим применение двух таких методов – неоднородную последовательную процедуру распознавания, для диагностика мастопатии у женщин и дискриминантный анализ.
Неоднородная последовательная процедура распознавания
Объем выборки составил 320 женщин, среди которых 103 здоровых женщины и 217 женщин, имеющих заболевание мастопатия. Необходимо отнести всю совокупность объектов к одному из непересекающихся классов здоровый или больной. Для достижения этой цели использовалась неоднородная последовательная процедура распознавания.
Для решения задач диагностики с помощью неоднородной последовательной процедуры распознавания следует сформировать 2 группы обследованных женщин: обучающая и тестовая. Для обучающей группы в ходе исследования были получены диагностические коэффициенты для каждого из возможных состояний – «болен», «здоров», используя выражение следующего вида:
(1)
где под состоянием А1 понимается в каждом конкретном случае наличие заболевания. Под состоянием А2 – отсутствие данного заболевания. xij (i – индекс диапазона, j- индекс признака) – значимые для диагностики заболевания независимые признаки, характеризующие состояние организма женщины.
Принятие решения о наличии или отсутствии заболевания у женщин контрольной группы осуществляется при выполнении следующего неравенства:
(2)
Существование нескольких состояний («болен», «здоров») предполагает наличие диагностических порогов, при достижении которых выносится решение. В неравенстве (2) пороговое значение для состояния А1 определяется как (3), для состояния А2 - (4), где - ошибка первого рода (ошибка пропуска состояния А1 (заболевания)), - ошибка второго рода (ошибочная диагностика состояния А1). В результате работы найдены диагностические коэффициенты для всех показателей обучающей базы данных.[4]
Диагностические коэффициенты для женщин больных мастопатией представлены в Таблице 1. ( Таблица содержит лишь часть показателей):
Признак |
Диапазон признака |
ДК |
боль при осмотре |
0 |
0,23989325 |
1 |
-0,0541879 |
|
2 |
-0,0556879 |
|
выделение из соска |
0 |
0,35799256 |
1 |
-0,8144644 |
|
3 |
-0,856844 |
|
заболевание матери |
0 |
-0,6254082 |
1 |
0,10116623 |
|
П_ССС |
0 |
-0,0611367 |
1 |
0,01483936 |
|
П_ЖКТ |
0 |
0,03577327 |
1 |
-0,027713 |
|
П_ДС |
0 |
-0,0891655 |
1 |
0,0180445 |
Таблица 1. Диагностические коэффициенты.
Пороговые значения представлены в Таблице 2:
ДК(А1) |
0,97 |
ДК(А2) |
-1,255272505 |
Таблица 2. Пороговые значения.
Приведем пример использования диагностических коэффициентов. Рассмотрим двух пациенток, одна из которых здорова, вторая имеет заболевание.
Пациент - Воронкова О.А. (Здорова)
В Таблице 3 представлены: перечень признаков, значения каждого из них, диапазон в который попадает признак, диагностический коэффициент соответствующий данному диапазону. (Таблица содержит лишь часть показателей)
Признак |
Значение признака данного пациента |
Диапазон признака, соответствующий пациенту |
ДК |
боль при осмотре |
1 |
1 |
-0,05419 |
заболевание матери |
0 |
0 |
-0,62541 |
П_ССС |
1 |
1 |
0,014839 |
П_ЖКТ |
1 |
1 |
0,035773 |
П_ДС |
1 |
1 |
0,018045 |
П_МочС |
1 |
1 |
0,056963 |
П_крови |
1 |
1 |
0,060597 |
П_ЦНС |
1 |
1 |
0,056963 |
П_ЭндС |
1 |
1 |
-0,00044 |
Др_забол |
1 |
1 |
-0,03398 |
Таблица 3. Данные о первой пациентке.
Сумма всех диагностических коэффициентов равна -3,02376, что меньше чем пороговое значение равное -1,255272505, следовательно, делаем вывод: пациентка Воронкова О.А – здорова.
Пациент - Гончарова М.В., (имеет заболевание).
В Таблице 4 представлены: перечень признаков, значения каждого из них, диапазон в который попадает признак, диагностический коэффициент соответствующий данному диапазону. (Таблица содержит лишь часть показателей)
Признак |
Значение признака |
Диапазон признака |
ДК |
боль при осмотре |
1 |
1 |
-0,05419 |
заболевание матери |
1 |
1 |
0,101166 |
П_ССС |
1 |
1 |
0,014839 |
П_ЖКТ |
0 |
0 |
0,035773 |
П_ДС |
1 |
1 |
0,018045 |
П_МочС |
0 |
0 |
-0,22747 |
П_крови |
1 |
1 |
0,060597 |
П_ЦНС |
1 |
1 |
0,056963 |
П_ЭндС |
1 |
1 |
-0,00044 |
Др_забол |
1 |
1 |
-0,03398 |
Таблица 4. Данные о второй пациентке.
Сумма всех диагностических коэффициентов равна 3,836121, что больше чем пороговое значение равное 0,97, следовательно, делаем вывод: пациентка Гончарова М.В. – больна.
Для оценки качества распознавания с помощью неоднородной последовательной процедуры распознавания, были проверены все женщины из тестовой выборки. Объем выборки составляет 110 женщин. Качество распознавания с помощью данного подхода составило 87%.
Вывод: неоднородная последовательная процедура распознавания имеет большое практическое значение в доказательной медицине. Процедура апробирована на реальных данных, представленных экспертами медицинского университета. Качество распознавание удовлетворяет врачей.
Дискриминантный анализ
Основная задача его состоит в построении с помощью выборочных наблюдений правила, позволяющего отнести новое наблюдение к одной из уже имеющихся совокупностей, в качестве правила формируется набор дискриминантных функций, число которых равно числу распознаваемых классов [5]. Метод предъявляет к данным некоторые требования:
В модели должно быть не менее двух классов, в каждом классе - не менее двух объектов из обучающей выборки.
Дискриминантные переменные должны быть количественными и линейно независимыми (т.е. не должны коррелировать друг с другом).
Для каждого класса требуется проверить данные на нормальность распределения.
Данный метод использовался для работы с выборкой из 767 женщин с различными формами заболеваний мастопатии. По видам заболеваний выборку можно разделить на 5 групп: фиброзная, кистозная, смешанная, железистая мастопатия и без нарушений (группа контроля). Т.е. существует k=5 классов и множество выборочных наблюдений над ними. Из имеющейся выборки были сформированы обучающая (510 женщин) и тестовая (257 женщин) выборки.
Обработка данных проводилась в программе Excel. Перед использованием дискриминантного анализа (алгоритм изложен в [6]) необходимо подготовить данные и проверить всем ли критериям они удовлетворяют. В исходной выборке k=5 классов и в каждом классе около не менее 100 объектов исследования (женщин), что удовлетворяет первому критерию использования дискриминантного анализа. Для проверки второго критерия был использован корреляционный анализ [7], т.е. была подсчитана корреляция между наиболее информативными признаками, которые были найдены с помощью метода Шеннона [8]. Получилось 28 наиболее информативных показателей с DI-го по EJ-й (расшифровка табл. 5).
Название показателя |
Позиция в Excel |
ФСГ |
DI |
ЛГ |
DJ |
Пролактин |
DK |
… |
|
Лимфоциты,% |
EI |
Моноциты,% |
EJ |
Таблица 5. Расшифровка информативных показателей
Исходя из того, что полученные значения корреляции по модулю