R – язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. R широко используется как статистическое программное обеспечение для анализа данных и фактически стал стандартом для статистических программ.
Важнейшую роль при сборе, изменении и анализе больших объемов данных играет их графическое представление. Графики являются неотъемлемой частью анализа основных свойств данных, нахождения в них общих закономерностей, распределений и аномалий, построение начальных моделей, то есть частью разведочного анализа данных; позволяют выявлять закономерности и тренды в сложных наборах данных; могут непосредственно быть результатом статистического анализа.
В большинстве случаев, создание графика начинается с функции высокого уровня, которая определяет его общую структуру: размерность (1D, 2D, 3D), масштабы осей, названия и многое другое. Как правило, в качестве графических функций высокого уровня используют следующие: plot(), hist(), boxplot(), scatterplot() и pairs(). К построенному графику могут быть добавлены дополнительные элементы: текст, линии, легенда. Поэтому, помимо функций высокого уровня, используют множество функций низкого уровня. Примерами таких функций являются: text(), lines(), points() и axis().
Также существует особый набор параметров, управляющий особенностями деталей графического изображения. Как правило, он является общим для большинства высокоуровневых и низкоуровневых функций. Данный набор позволяет определить цвет, размер и типы символов или маркеров, толщину и характер линий, штриховку, рамку графика и другое.
Рассмотрим главную функцию, используемую для построения графиков в R – функцию plot(). Поведение этой функции высокого уровня определяется классом объектов, указываемых в качестве ее аргументов. Таким образом, с помощью plot() можно создать достаточно большой набор разнотипных графиков.
В качестве примера могут служить результаты исследования скорости и тормозного пути автомобилей, которые входят в базовый набор данных R.Они доступны по команде data(cars).Далее, используя команду names(cars), видим, что в состав таблицы carsвходят переменные speed – скорость и dist – расстояние:
names(cars)
[1] "speed" "dist"
Следующим шагом на пути к построению графика по данным эксперимента является прикрепление таблицы cars к поисковому пути R с помощью команды attach(cars). Благодаря этому, можно напрямую обращаться к переменным таблицы, то сеть непосредственно использовать их имена, например, «speed» вместо «cars$speed».
Итак, теперь можно использовать команду plot(speed, dist) (рис. 1).
Рисунок 1. Построение графика в R с помощью функции plot()
УПРАВЛЯЮЩИЕ ПАРАМЕТРЫ ФУНКЦИИ PLOT()
Функция plot() имеет большое количество управляющих параметров, которые позволяют осуществлять настройку внешнего вида графика. Рассмотрим некоторые из них.
Параметры xlab и ylab.
Данные параметры служат для изменения названий осей Ox и Oy. Например, plot(speed,dist, xlab = "Скорость", ylab = "Расстояние") (рис.2).
Рисунок 2. Изменение названий осей графика
Параметр type.
Параметр type позволяет изменять внешний вид точек на графике. Он принимает одно из следующих текстовых значений:
"p" - точки (points; используется по умолчанию);
"l" - линии (lines);
"b" - изображаются и точки, и линии (both points and lines);
"h" - гистограмма (histogram);
"n" - данные не отображаются (no points);
Параметры xlim и ylim.
Данные параметры контролируют отрезок значений на каждой из осей графика. Изначально, они принимают нулевое значение. В этом случае отрезок выбирается программой автоматически. Для отмены автоматических настроек соответствующему параметру необходимо присвоить значение в виде числового вектора, содержащего минимальное и максимальное значения, которые должны отображаться на оси. Например, plot(speed,dist, xlab="Скорость", ylab="Расстояние", xlim=c(10, 15)) (рис. 3).
Рисунок 3. Применение параметра xlim
Или жеplot(speed,dist, xlab="Скорость", ylab="Расстояние", ylim=c(40, 50)) (рис. 4).
Рисунок 4. Применение параметра ylim
Параметры axes и ann.
Эти два параметра контролируют отображение осей и их названий. Каждый из них может принимать два значения – TRUE или FALSE. Например,plot(speed,dist, xlab="Скорость", ylab="Расстояние", axes = FALSE, ann = TRUE) (рис. 5).
Рисунок 5. Изменения в отображении осей
Или же plot(speed,dist, xlab="Скорость", ylab="Расстояние", axes = TRUE, ann = FALSE) (рис. 6).
Рисунок 6. Изменения в отображении названий осей
Параметр main.
Параметр main служит для создания названия графика. По умолчанию название размещается в верхней части рисунка. К примеру,plot(speed,dist, xlab="Скорость", ylab="Расстояние", main = "Скорость и тормозной путь автомобилей") (рис. 7).
Рисунок 7. Создание названия графика