Существует проблема, которая заключается в том, что при анализе медико-биологических данных часто приходится сталкиваться с разнотипными данными. Процессы, протекающие в живом организме, достаточно сложны, поэтому они описываются биомедицинскими данными, отличающимися многообразием и разнородностью. Поэтому для анализа этих данных необходимо применять различные методы.
Существуют различные методы для анализа разнотипных данных. Разные методы используются для данных, изменяющихся во времени, и статических данных. Среди последних есть методы, подходящие для анализа количественных, качественных данных, а также методы, подходящие для обработки как количественных, так и качественных данных.
Динамические данные представлены в виде 23 временных рядов показателей биохимии крови, усреднённых на группах здоровых людей, измеренных в 73 момента времени.
Поставлена задача провести автокорреляционный анализ и сезонную декомпозицию данных рядов.
Статические данные представлены в виде измерений 20 показателей у 102 пациентов, среди которых здоровые и больные с разной степенью тяжести.
Необходимо с помощью методов обработки разнотипных данных определить степени тяжести больных.
Описание методов
В данных, представленных во времени, могут присутствовать аномальные наблюдения. Наличие аномальных наблюдений приводит к искажению результатов моделирования, поэтому необходимо выявить и исключить из временного ряда эти наблюдения. Для диагностики аномальных наблюдений разработаны различные критерии, например, метод Ирвина.
При использовании этого метода вычисляется величина :
,
где , .
Если полученное табличное значение (находимое в зависимости от числа наблюдений во временном ряде и уровня значимости), то элемент считается аномальным наблюдением. Аномальные наблюдения нужно исключить из временного ряда, заменив их на расчетные значения (например, на среднее из двух соседних значений).
Для оценки наличия сезонных ритмов в указанных временных рядах используется функция автокорреляции и её графическое представление – коррелограмма.
Коэффициент автокорреляции с временным смещением h вычисляется по формуле:
,
где ch – функция автоковариации
и c0 – функция вариации .
Последовательность коэффициентов автокорреляции со смещениями 1, 2, 3 и т.д. называют автокорреляционной функцией. Значения автокорреляционной функции могут колебаться от -1 до +1.
При помощи анализа коррелограммы можно выявить структуру ряда. Если наиболее высоким оказался коэффициент корреляции первого порядка, то исследуемый ряд содержит только тенденцию, если коэффициент автокорреляции порядка h, то ряд содержит циклические колебания с периодичностью в h моментов времени. Автокорреляционную функцию целесообразно использовать для выделения во временном ряде наличия трендовой и сезонной компонент.
Проверка наличия неслучайной составляющей сводится к проверке гипотезы о неизменности среднего значения временного ряда с использованием критерия серий, основанного на медиане. При его использовании сначала находится медиана временного ряда, затем образуются «серии» из плюсов и минусов по следующей схеме: вместо ставится «плюс», если , и «минус», если . Элементы временного ряда, равные , в полученной таким образом последовательности не учитываются. Под «серией» понимается последовательность подряд идущих плюсов или подряд идущих минусов. Если в данном временном ряде тенденция отсутствует, то есть проверяемая гипотеза справедлива, то чередование «плюсов» и «минусов» в полученной последовательности должно быть случайным. Последовательность должна содержать много серий из «плюсов» и «минусов», при этом серии не должны быть длинными. Поэтому подсчитывается - общее число серий и - протяженность самой длинной серии. Если хотя бы одно из неравенств:
окажется нарушенным, то подтверждается наличие зависящей от времени неслучайной составляющей во временном ряде. (Квадратные скобки в неравенствах означают целую часть от числа.)
При подтверждении наличия зависящей от времени неслучайной составляющее во временном ряде можно выделить тренд. Для этого используются метод скользящих средних. Он заключается в следующем: сначала определяется количество наблюдений, входящих в интервал сглаживания. Он должен быть большим, если нужно сгладить мелкие колебания, или малым, если их нужно сохранить. Затем вычисляется среднее значение наблюдений в интервале сглаживания по формуле
,
где m – количество наблюдений, входящих в интервал сглаживания.
Таким же образом находится сглаженное значение для остальных значений, до тех пор, пока в интервал сглаживания не войдет последнее значение временного ряда.
С использованием приведённых методов сезонная композиция производится по следующему алгоритму:
Выделяется тренд с помощью метода скользящих средних. Интервал сглаживания берется равным периоду сезонности. После этого сезонная изменчивость будет исключена.
Выделяется сезонная компонента – разность (если выбрана аддитивная модель) или отношение (мультипликативная) между исходным и сглаженным рядом. То есть сглаженный ряд вычитается из исходного (если аддитивная модель) или значения исходного ряда делятся на значение сглаженного (мультипликативная).
Вычисляется сезонная компонента - среднее всех значений ряда, соответствующих данной точке сезонного интервала
Выделяется случайная компонента.
Далее представлено описание методов, предназначенных для обработки статических данных.
Для выделения информативных показателей была использована диаграмма Парето. Сначала вычисляется число отклонений от нормы каждого из показателей. Чтобы определить границы нормы, для каждого из показателей были вычислены среднее арифметическое и стандартное отклонение, учитывая только значения показателей, относящиеся к здоровым пациентам. Полученные числа отклонений сортируются в порядке убывания, затем вычисляется процент отклонений каждого показателя от общего числа отклонений. По этим процентам строится столбиковая диаграмма, затем вычисляется кумулятивный процент и наносится на график в виде линии.
Шкалирование данных нужно для корректного сопоставления значений различных признаков. Для шкалирования использовалась функция Харрингтона:
где , - нижняя и верхняя границы нормы для данного показателя.
Для количественных данных используется метрика Махаланобиса. При его использовании учитывается зависимость признаков объекта, что очень важно для медицинских данных. Его отличительным свойством является то, что оно учитывает корреляции между признаками, и оно инвариантно к масштабу. Если данные имеют разную размерность и диапазон значений, свойства метрики Махаланобиса позволяют это учитывать. Поэтому для таких случаев метрика Махаланобиса очень эффективно.
Для качественных данных используется логико-вероятностный подход. Иногда в задаче представлены данные о состоянии здоровья пациентов, при этом не все показатели описаны достаточно полно, некоторые представлены вероятностями. Это происходит потому, что не всегда есть возможность провести все измерения, например, из-за отсутствия необходимого оборудования. Таким образом, данные представлены нечётко, поэтому целесообразно использовать для распознавания образов алгоритм логико-вероятностного принятия решений. При его использовании вычисляется вероятность принадлежности объекта к соответствующему образу.
Метрика Махаланобиса является мерой расстояния между векторами случайных величин. Оно определяется следующим образом:
,
где - многомерный вектор (вектор значений показателей пациента);
- множество средних значений (вектор средних значений каждой из групп);
- матрица ковариации.
Определив метрики Махаланобиса для всех групп (здоровых пациентов и пациентов с разной степенью тяжести болезни), нужно выбрать самое минимальное, тогда можно судить о предположительной степени тяжести больного.
Для качественных данных используется логико-вероятностный подход. Для его применения исходные данные делятся на обучающую и тестовую выборки (2/3 и 1/3 от общего числа объектов соответственно). Для представления обучающих объектов используется матрица строки которой относятся к объектам, а столбцы – переменным состояния, задающим описание каждого объекта. Переменные принимают значения из множества {1,0,-}, где 0 означает, что объект в норме, 1 означает отклонение от нормы, а «-» означает, что значение переменной может быть как 0, так и 1.
Логико-вероятностное принятие решение состоит в том, что объект относится к одному из классов путем вычисления вероятности принадлежности объекта тому или иному классу.
Так же был использован магистральный метод. Так как различные показатели могут иметь разную размерность и единицы измерения, целесообразно использовать среднегеометрический показатель, чтобы исключить повышенное влияние одного из показателей на отклонение от нормы. Среднегеометрический показатель, отражающий общее состояние здоровья пациента рассчитывается по следующей формуле:
Гx=ni=1nxi,
где xi – значение i-го показателя.
Среднегеометрическое значение для состояния нормы равно:
Гx0=ni=1nxi0,
где xi0 – норма для i-го показателя.
При известных допустимых отклонениях ±∆xн характер напряженности состояния системы может быть определён из выражений:
γ=α21-α2,
где α2=∆xт∆x∆xнт∆xн.
Эти показатели оценивают степень отклонения показателей пациента от нормы. При отклонении показателей от 0 можно говорить о напряженности систем организма пациента.
Применение методов
Сначала были применены методы для данных, изменяющихся во времени. Имеющиеся данные были обработаны методом Ирвина с целью удаления аномальных наблюдений. На рисунке 1 представлен результат применения метода для показателя КАТ.
Рисунок 1. Результат применения метода Ирвина на временном ряде показателя КАТ
Все временные ряды были проверены на наличие тренда с помощью критерия серий. Как показали исследования, во всех временных рядах присутствует тренд.
Для показателя КАТ были получены следующие значения:
median = 12,83 – медиана, = 3 – общее количество серий, = 5 – максимальная длина серии.
При n = 23
= 79
= 6
В данном примере оба неравенства из условия наличия неслучайной составляющей нарушены, что свидетельствует о присутствии во временном ряде неслучайной составляющей.
Для проверки временных рядов на наличие сезонной составляющей использовалась автокорреляционная функция и её графическое представление – коррелограмма. Полученные коррелограммы для некоторых признаков представлены на рисунках 2,3.
Рисунок 2. Показатель Vegf, период сезонной составляющей – 12
Рисунок 3. Показатель ттг3, нет сезонной составляющей
Коррелограммы показали, что для 14 показателей присутствует сезонная составляющая. Результаты анализа коррелограмм представлены в таблице 1.
Таблица 1. Результаты анализа коррелограмм
Показатель |
Период сезонной составляющей |
Показатель |
Период сезонной составляющей |
|
ЦП |
7 |
МДА стим |
Нет |
|
КАТ |
12 |
РЛПО |
6 |
|
ОХС |
11 |
ОЛ |
8 |
|
lgA |
27 |
ХСПЛВ |
22 |
|
lgM |
Нет |
ТАГ |
12 |
|
lgG |
33 |
ХСЛПНП |
11 |
|
ЦИК |
Нет |
ХСЛПОНП |
16 |
|
лиз |
Нет |
инс |
Нет |
|
Т3 |
Нет |
корт |
Нет |
|
Т4 |
Нет |
к/и |
2 |
|
ТТГ |
2 |
СРБмг/л |
Нет |
|
МДА спон |
11 |
Для временных рядов, для которых проверка с использованием коррелограммы показала наличие сезонной составляющей, была проведена сезонная декомпозиция.
На основе анализа графического представления временных рядов и их трендов для декомпозиции была выбрана аддитивная модель вида: X = TC +S + I, где T – тренд, C – циклическая компонента, S – сезонная компонента, I – случайная компонента.
Тренд и циклическая компонента объединены в одну тренд-циклическую компоненту (TC).
С помощью метода скользящих средних выделена тренд-циклическая компонента. При использовании метода скользящих средних интервал сглаживания для каждого временного ряда был выбран равным периоду сезонных колебаний.
Найдены разности между значениями исходного временного ряда и выделенной тренд-циклической компоненты. Вычислена сезонная компонента, как среднее всех этих разностей, соответствующих данной точке сезонного интервала. Получена случайная компонента, как разность значений исходного временного ряда и суммы значений тренд-циклической компоненты и сезонной компоненты. График декомпозиции для одного из показателей представлен на рисунке 4.
Рисунок 4. Декомпозиция временного ряда для признака ттг3
Так же были построены графики сезонных индексов для показателей, у которых присутствует сезонная составляющая. Эти графики позволяют судить о закономерностях взаимного изменения показателей. В качестве примера приведены графики сезонных индексов для трёх показателей с одинаковым периодом сезонности, равным 11.
Рисунок 5. Сезонные индексы показателей ОХС, МДА спон, ХСЛПНП
Далее были применены методы для статических данных.
Сначала были вычислены границы норм для всех показателей, для использования в диаграмме Парето и в функции Харрингтона. Результаты вычислений представлены в Таблице 2.
Таблица 2. Границы норм для выбранных показателей
Аn5сут |
Ar |
r |
Kk |
k |
t |
k+t |
AM |
T |
F, %5 сутки |
|
Среднее арифметическое |
78,133 |
6,733 |
5,213 |
44,447 |
4,613 |
34,320 |
38,933 |
629,467 |
44,147 |
15,413 |
Стандартное отклонение |
14,633 |
1,831 |
0,177 |
5,985 |
0,356 |
4,996 |
5,179 |
46,857 |
5,283 |
2,988 |
Нижняя граница нормы |
63,500 |
4,902 |
5,037 |
38,461 |
4,257 |
29,324 |
33,755 |
582,610 |
38,864 |
12,426 |
Верхняя граница нормы |
92,766 |
8,564 |
5,390 |
50,432 |
4,970 |
39,316 |
44,112 |
676,323 |
49,429 |
18,401 |
Аn1 мес |
Ar |
r |
Kk |
k |
t |
k+t |
AM |
T |
F, %1 мес |
|
Среднее арифметическое |
74,800 |
7,067 |
3,814 |
33,640 |
3,077 |
28,673 |
31,740 |
720,600 |
35,750 |
9,707 |
Стандартное отклонение |
8,736 |
1,668 |
0,292 |
2,689 |
0,118 |
1,805 |
1,901 |
31,377 |
2,137 |
1,599 |
Нижняя граница нормы |
66,064 |
5,399 |
3,523 |
30,951 |
2,959 |
26,868 |
29,839 |
689,223 |
33,613 |
8,108 |
Верхняя граница нормы |
83,536 |
8,734 |
4,106 |
36,329 |
3,195 |
30,478 |
33,641 |
751,977 |
37,887 |
11,306 |
Была построена диаграмма Парето. Количество отклонений каждого показателя представлено в таблице 3.
Таблица 3. Количество отклонений каждого показателя от нормы
Показатель |
Отклонения |
Процент |
Накопленный процент |
r |
93 |
7% |
7% |
AM1 мес |
89 |
6% |
13% |
k |
86 |
6% |
19% |
k1 мес |
79 |
6% |
25% |
k+t1 мес |
78 |
6% |
30% |
T1 мес |
78 |
6% |
36% |
t1 мес |
77 |
5% |
41% |
Kk |
73 |
5% |
46% |
r1 мес |
71 |
5% |
51% |
AM |
69 |
5% |
56% |
Kk1 мес |
69 |
5% |
61% |
Аn5сут |
67 |
5% |
66% |
F, %5 сутки |
66 |
5% |
70% |
T |
64 |
5% |
75% |
Ar |
63 |
4% |
79% |
F, %1 мес |
61 |
4% |
84% |
t |
59 |
4% |
88% |
Аn1 мес |
58 |
4% |
92% |
Ar1 мес |
57 |
4% |
96% |
k+t |
56 |
4% |
100% |
Диаграмма Парето представлена на рисунке 6.
Рисунок 56. Диаграмма Парето
Из результатов построения диаграммы Парето можно сделать заключение, что информативными являются 15 из 20 показателей.
Была применена процедура шкалирования с помощью функции Харрингтона. Результаты для разных показателей представлены на рисунках 7 и 8.
Рисунок 7. Результаты преобразования с помощью функции Харрингтона для показателя An5сут
Рисунок 8. Результаты преобразования с помощью функции Харрингтона для показателя Ar
Для выполнения поставленной задачи было разработано приложение в среде C++ Builder 2010. Приложение определяет тип данных, а затем обрабатывает их нужным методом.
Для того, чтобы определить, каким методом нужно обработать данные, необходимо определить их тип. Это выполняется в начальном окне программы (Рисунок 9)
Рисунок 9. Начальное окно программы
Данные загружаются из текстового файла. Затем определяется тип данных. Можно самому выбрать тип данных, метод для которого будет применён. Если выбранный тип отличается от того, который определило приложение, программа выдаст предупреждение. Можно выбрать опцию «выбрать автоматически», в этом случае будет выбран тип, подходящий для выбранных данных.
Если после определения типа данных выбран количественный тип данных, программа перейдёт к окну для решения задачи методом Махаланобиса (Рисунок 10).
Рисунок 10. Окно программы для вычисления метрик Махаланобиса
Данные загружаются из файла и хранятся в компоненте StringGrid. Первый столбец должен быть номером группы пациентов (здоровые или больные с разной степенью тяжести). Остальные столбцы содержат значения показателей.
Затем считается матрица ковариации и заносится во второй компонент StringGrid. После этого считается средние значения показателей для каждой группы пациентов и заносятся в третий компонент StringGrid. Из полученных результатов считаются метрики Махаланобиса и заносятся в четвёртый компонент StringGrid, который так же будет содержать изначальное значение группы пациентов и полученное.
Если после определения типа данных выбран качественный тип данных, программа перейдёт к окну для решения задачи с логико-вероятностным принятием решения (Рисунок 11).
Рисунок 11. Окно приложения для применения логико-вероятностного подхода
Данные загружаются из файла и хранятся в компоненте StringGrid в той же форме, что и для решения задачи методом Махаланобиса. Значения показателей должны лежать в интервале от 0 до 1. Если значения выходят за границы этого интервала, то они предварительно обрабатываются с использованием функции Харрингтона.
Затем данные переводятся в форму, пригодную для использования логико-вероятностного подхода. Если значение показателя лежит в интервале от 0.368 до 0.692, то вместо него подставляется значение «0», если в интервале от 0.192 до 0.8, но не в первом интервале, то подставляется значение «-», в остальных случаях подставляется значение «1». Полученные значения выводятся во второй компонент StringGrid.
После этого нужно разбить данные на обучающую и тестирующую выборки. Обучающая выборка выводится в третий компонент StringGrid, тестирующая в четвёртый. В тестирующую выборку входит каждый третий объект исходной выборки, в обучающую - все остальные. Затем применяется логико-вероятностный подход и результаты выводятся в пятый компонент StringGrid.
Так же программно был реализован метод, оценивающий отклонение систем организмов от нормы с помощью среднегеометрического показателя. Окно программы для использования этого метода представлено на рисунке 12.
Рисунок 12. Окно приложения для расчёта среднегеометрического показателя и показателей γ и α
Сначала необходимо вывести из файла исходные данные, нормы показателей и допустимые отклонения показателей от нормы. При отсутствии некоторых из этих данных приложение не позволит посчитать все показатели.
С помощью приложения были подсчитаны среднегеометрические показатели для всех пациентов и среднегеометрический показатель для нормального состояния показателей, а также отклонения среднегеометрических показателей пациентов от нормы.
Так же были посчитаны показатели γ и α для оценки отклонения состояния здоровья пациентов от нормы. Получившиеся значения γ были усреднены по группам (группа здоровых пациентов и три группы больных по степеням тяжести). Результаты представлены в таблице 5.
Таблица 5. Средние значения γ для групп пациентов
Группа |
Среднее значение γ |
Здоровые пациенты |
0,155 |
1-й степень тяжести |
0,609 |
2-й степень тяжести |
1,083 |
3-й степень тяжести |
2,191 |
Полученные значения показали, что для группы здоровых пациентов в среднем показатель γ незначительно отклоняется от 0, в то время, как для групп больных пациентов он выше.
Заключение
В ходе работы было разработано программное приложение, позволяющее принимать диагностические решения на основе разнотипной исходной информации. Были выбраны математические методы, подходящие различным типам данных. Для количественных данных были выбраны методы, учитывающие различную размерность и разный диапазон значений показателей. Были выявлены информативные признаки, позволяющие сократить объём признакового пространства. Для принятия решения на основе количественных признаков был реализован алгоритм вычисления метрики Махаланобиса, результат распознавания составил 84 %, что является допустимым значением. Для принятия решения на основе как качественных, так и количественных признаков был реализован логико-вероятностный подход, результат распознавания составил 40%, что недостаточно для принятия решения. Можно сделать вывод, что метод метрики Махаланобиса является более эффективным. Разнотипные данные были приведены к единой шкале измерения, что позволяет сделать их универсальными для использования различных методов обработки информации. Так же был реализован среднегеометрический показатель состояния здоровья, а так же показатели γ и α, как величины отклонения состояния здоровья пациента. Результаты вычислений показателя γ показали правильность исходного разбиения по группам. В дальнейшем предполагается использование среднегеометрического показателя для динамических данных.
16