Импорт/экспорт данных из Excel в R - Студенческий научный форум

XI Международная студенческая научная конференция Студенческий научный форум - 2019

Импорт/экспорт данных из Excel в R

Андриянов Л.А. 1
1Орловский Филиал Финуниверситета
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Rstudio – это удобная программа, среда разработки программного обеспечения с открытым исходным кодом, для программирования R. Она предназначена для обработки и работы с графикой. А Microsoft Excel в свою очередь программа, созданная корпорацией Microsoft, предоставляющая возможности экономико-статистических расчётов, графические инструменты. И важной функцией, связывающей данные программы, является импорт и экспорт данных из Microsoft Excel в Rstudio. Универсальным средством обмена данными между этими двумя программами может являться буфер обмена.

Одним из возможных вариантов импорта/экспорта данных из Excel в R является команда read.table и write.table

Начнём с команды read.table:

Data<-read.table("clipboard",h=TRUE,dec = ",",sep = "\t") # Чтение из буфера обмена данных excel-формата в таблицу data.frame c заголовками столбцов.

Производит чтение данных Excel-формата из буфера обмена в переменную Data типа data.frame, при этом параметр h, отвечает на вопрос, нужно ли считать первую строку таблицы именами столбцов или нет.

Обратная команда – write table:

write.table(Data,"clipboard", quote=FALSE, col.names = TRUE, row.names = FALSE, sep = "\t", dec=",") # Запись в буфер обмена данных в Excel-формате.

Записывает данные таблицы Data из R в буфер обмена Excel-формат.

Следует помнить, что вместо буфера "clipboard" может стоять и полный адрес к файлу, записанный прямым слешом (/), например: "C:/Users/User/Desktop/data.txt".

Следующим вариантом импорта/экспорта данных является программа read.csv и read.csv2. Действие команды read.csv аналогично процедуре read.table, но применяется для чтения данных, хранящихся в файле с расширением .csv ("Comma Separated Values" — "данные, разделенные запятыми".). В России запятая является десятичным разделителем, а не разделителем данных, поэтому с такими файлами практически не работают. Тем не менее, эти команды необходимо знать для чтения аутентичных csv - файлов из европейских или американских источников.

Вот как эти команды выглядят в действии (без разницы read.csv или read.csv2) (См. рис.1):

Data <- read.csv("Путь и имя файла.csv", header =TRUE) # Чтение данных из excel-файла формата csv

Для записи таблицы Data из R в Excel-файл формата csv служит команда (См. рис.1):

write.csv(Data, "Путьиимяфайла.csv ", col.names = TRUE, row.names = FALSE)

Существует разница между операторами read.csv и read.csv2:

read.csv – оперирует с разделителями данных в виде запятых, а read.csv2 – с разделителями данных в виде точки с запятой, однако, десятичным разделителем у них всегда используется точка.

Рис. 1

Ещё одна процедура импорта/экспорта данных – read.xlsx

В системе R существует множество различных библиотек для разного типа задач, но прежде чем приступить к рассмотрению команд чтения и записи таких файлов, необходимо установить мощную библиотеку "xlsx", которая в свою очередь не будет корректно работать без предварительной установки на компьютер объектно-ориентированного языка программирования Java, поскольку данная библиотека использует объекты Java. Также для данной работы на необходима библиотека "dplyr", для таких команд, как str и select.

Для начала устанавливаем библиотеку "xlsx", сделать это можно двумя способами: из меню tools(install packages), или командой library("xlsx")(См. рис.2).

Рис. 2

Использование процедуры read.xlsx. Рассмотрим её на примере.

Создадим для начала excel файл, содержащий на первом листе таблицу (Рис.3):

Рис. 3

Следующим действием прописывать путь к файлу. Самый техничный способ – это указать мышью на файл data.xlsx и, удерживая нажатыми клавиши Ctrl и Shift, нажать правую кнопку мыши, после чего выбрать пункт «Копировать как путь».

В итоге в буфере обмена содержится путь к нашему файлу. Однако вставить его в соответствующую команду R нужно с некоторыми изменениями. Образуем в R текстовую переменную PATH, в которую скопируем из буфера обмена наш путь (Ctrl+v):

PATH <-"C://Users//User//Desktop//data.xlsx"

Как можно заметить, был добавлен один слеш (/), это форма записи пути и является корректной в R.

Теперь остается задать саму команду чтения таблицы данных с первого листа Excel-файла, путь к которому был указан в переменной PATH:

Data<-read.xlsx(PATH, 1, encoding = "UTF-8", header = TRUE)

Если бы имя нашего листа было написано латиницей: не "Лист1", а скажем, "List1", то можно было бы обратиться к нему не по номеру (индексу), а по имени:

Data <- read.xlsx(PATH, "List1", encoding = "UTF-8", header = TRUE)

Просмотреть полученный результат можно завершающими командами (См. рис. 4):

Str(Data) # Смотрим структуру Data

Data # Смотрим саму таблицу данных Data

Рис. 4

Таким образом, был проведён импорт данных из Microsoft Excel в R. Также можно заметить, что десятичные разделители были преобразованы из запятых в точки, а даты автоматически распознаны в R, и их формат изменен на европейский.

Подводя итог можно сказать, что импорт и экспорт данных из Microsoft Excel в R является довольно удобной и важной функцией, упрощающей разные операции. Можно работать с таблицами Excel, редактировать их, прямиком из R, не совершая лишних операций.

Просмотров работы: 1453