Особенности методов машинного обучения для прогнозирования курса валют - Студенческий научный форум

XII Международная студенческая научная конференция Студенческий научный форум - 2020

Особенности методов машинного обучения для прогнозирования курса валют

Оргдаева Г.А. 1, Сангаджиева Е.В. 1
1ФГБОУ ВО «Калмыцкий государственный университет им Б.Б. Городовикова»
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

На данный момент машинное обучение является одной из наиболее развивающихся областей прикладной математики, позволяющих решать большой спектр задач предсказания и распознавания. Многие экономисты используют методы анализа данных для предсказания валютных курсов. Так, например, Martin Evans и Richard Lyons в своей статье «Micro-Based Exchange-Rate Forecasting» используют метод k ближайших соседей и метод опорных векторов для прогнозирования основных мировых валютных пар (EUR/USD, GBP/USD, USD/JPY). В своей работе ученые строят прогнозы, основываясь на таких факторах, как биржевые котировки сырьевых товаров и процентных ставках. Они сравнивают данные методы с моделью, построенной с помощью анализа временных рядов. Они приходят к выводу, что для интрадейт-трейдинга модель, основанная на техническом анализе, дает более высокую точность и поэтому более применима. Стоит отметить, что ученые предсказывали конкретные уровни значений или то, вырастет курс или упадет, а не изменения курса на определенный процент.

Такжеделаети Barbara Rossi встатье «Exchange Rate Predictability». В своей работе тестирует, насколько точно можно предсказать изменение курсов, но не берет в расчет предсказания экстремумов.

Любая задача машинного обучения подразумевает наличие выборки – совокупности данных, представляемой в виде списков или таблиц, в которых содержится некоторая информация об анализируемом объекте. Задача заключается в построении модели того, как устроен анализируемый объект, на основе анализа имеющихся данных.

Задачи машинного обучения делятся на 2 типа: “обучение с учителем” и “обучение без учителя”. Первый тип задач, как правило, заключается в поиске зависимости между некоторыми характеристиками модели, называемыми факторами, и исследуемой величиной, называемой откликом. К обучению с учителем относятся такие задачи, как линейная регрессия, логистическая регрессия, метод опорных векторов, метод ближайших соседей и другие. Обучение без учителя подразумевает динамически обучаемую во времени модель.

Большинство задач машинного обучения, связанных с прогнозированием, можно разделить на 3 больших этапа: выбор модели, ее обучение и предсказание с использованием построенной модели. Обучение представляет собой простой подбор параметров модели, основанный на обучающей выборке. Параметры подбираются таким образом, чтобы заранее подобранный функционал ошибки предсказания, характеризующий то, насколько аккуратно построенная модель предсказывает исследуемую величину, достигал своего минимума.

Еще одной важной задачей при построении модели является ее оценка качества предсказания, которая будет характеризовать то, насколько адекватно будет полагаться на прогноз, полученный с помощью построенной модели.

1. Разработка прогноза оценки.

Для того чтобы сделать прогноз во временных рядах, данные должны быть скорректированы таким образом, чтобы при прогнозировании возврата в момент времени t (rt) использовалась вся историческая информация, доступная до момента времени t. Таким образом, последняя информация, связанная с экономической переменной, используется при оценке модели прогнозирования. Процесс показан на рисунке 4, где TS обозначает обучающую выборку, а TO обозначает тестовое наблюдение. Он показывает, как обучающая выборка постоянно обновляется при каждом прогнозе на один шаг вперед.

Рис 3.1 Разработка прогноза оценки

2. Autoregressive model (с англ. Авторегрессионная модель).

Данная модель пытается предсказать будущие результаты на основе линейной формулировки предыдущих результатов. Это самая простая одномерная модель временных рядов. Понятие AR (p) обозначает авторегрессионную модель порядка p, определяемую как:

Где ϕi– параметры модели, а Ԑt - белый шум, обычно следующий за нормальным распределением.

Основным ограничением этой модели является предполагаемая линейная форма. Аппроксимация сложной задачи реального мира линейной моделью не всегда дает удовлетворительные результаты. Для простоты мы моделируем случай первого порядка, когда p = 1, т.е.

Процесс AR (1) иногда называют марковским процессом, в честь русского А. А. Маркова. Для подбора модели AR использовалась команда R arima () в библиотеке ts.

3. ARCH/GARCH.

ARCH/GARCH (авторегрессионная условная гетероскедастичность/ обобщенная авторегрессионная условная гетероскедастичность) – безусловно, наиболее популярные модели, используемые для анализа волатильности в финансовом контексте. С принятием этих инструментов гетероскедастичность моделировалась лишь до определенной степени; однако они предоставили гораздо лучшие прогнозы волатильности по сравнению с традиционными подходами. Модель ARCH была представлена ​​Энглом в 1982 году. Процесс ARCH может быть определен в различных контекстах. Определяя его в терминах распределения ошибок в модели динамической линейной регрессии зависимая переменная Yt в момент времени t генерируется

Где Xt определяет вектор предиктора длины k, который состоит из лаговых переменных зависимой переменной. Модель ARCH характеризует распределение стохастической ошибки ߝ௧ в зависимости от реализованных значений множества переменных . Оригинальная формулировка ARCH предполагает

Где ht=

Коэффициенты ɑi оцениваются по данным. Полезным обобщением этой модели является процесс GARCH, представленный Боллерслевым в 1986 году. В наиболее широко используемой спецификации GARCH утверждается, что лучшим предиктором дисперсии в следующем периоде является средневзвешенное значение долгосрочной средней дисперсии, дисперсии, прогнозируемой на этот период, и новой информации в этом периоде, которая собирается наиболее недавний квадратичный остаток. Процесс GARCH с порядком p и q обозначается как GARCH (p, q), выраженный как

Модель ARCH (q) такая же, как модель GARCH (0, q). Поведение ARCH/GARCH члена ошибки зависит от модели, выбранной для представления данных. Мы можем использовать разные модели для представления данных с разным уровнем точности. Для этого исследования GARCH (0,1) был использован для простоты, но наша процедура оценки применима для общего процесса GARCH (p, q). Функция garch в библиотеке tseries библиотеки R используется для оценки и прогнозирования.

4. Regression Trees (с англ. Дерево регрессии).

Дерево регрессии - это модель прогнозирования, представленная в виде дерева решений. Дерево решений - это графическое представление, в котором каждый внутренний узел представляет тест по одной из входных переменных, а конечные узлы (также называемые листьями) являются решением или прогнозом. Прогноз в терминальном узле является средним значением всех значений ответа в этой ячейке. В линейной регрессии глобальная модель разрабатывается для всего набора данных, то есть именно эта глобальная модель будет использоваться для прогнозирования, и мы знаем, что ее производительность ухудшается, если в наборе данных присутствуют нелинейные отношения, или переменные взаимодействуют в усложненном образе. Дерево регрессии представляет собой постоянную кусочную модель и, следовательно, может лучше справляться с нелинейностями и взаимодействиями в данных. Это один из фундаментальных методов, используемых в интеллектуальном анализе данных, и одним из его основных преимуществ является то, что он дает визуальное представление правил принятия решений в узлах, которые используются для прогнозирования.

Дерево регрессии растет как двоичное дерево, то есть каждый узел в дереве имеет два дочерних узла. По сути, все деревья начинаются с корневого узла, а затем в каждом узле мы определяем разбиение с помощью объясняющей переменной (из заданного набора объясняющих переменных), что приводит к максимальному уменьшению отклонения. При прохождении по дереву в каждом данном узле проверяется условие, на основании которого мы решаем, двигаться ли в левую или правую ветвь. Если условие выполнено, мы проходим вниз через левую ветвь, а затем вниз по правой. Решение принимается на листовом узле. Прогноз на листе «c» рассчитывается по формуле:

Где nc- количество наблюдений в листовом узле. Поскольку мы разбили выборочное пространство на c области R1, R2, ...., Rc, ответ моделируется как

и сумма квадратов ошибок для дерева «T» рассчитывается как

Двумя наиболее широко используемыми R-пакетами для оценки и предсказания дерева регрессии являются дерево и «rpart», где древовидный пакет - самый простой пакет. Здесь используется пакет «rpart». У этого есть следующие параметры, определяющие, как дерево должно быть выращено:

Управление: это список параметров, контролирующих рост дерева.

cp пороговый параметр сложности, который указывает уменьшение отклонения при попытке разделения.

minsplit указывает минимальное количество наблюдений в узле, для которого он будет пытаться вычислить расщепление.

Значение по умолчанию для minsplit - 500, а для cp - 0,01.

5. Random Forests (с англ. Случайные леса)

Брейман в 2001 году предложил метод случайных лесов, который, как было показано, генерирует точные прогностические модели. Он автоматически определяет важные предикторы, что полезно, когда данные состоят из множества переменных, и мы сталкиваемся с трудностями при принятии решения о том, какие из переменных необходимо включить в модель. Случайный лес - это метод ансамбля, который объединяет большое количество отдельно выращенных деревьев.

При построении случайных лесов выборки данных используются для построения деревьев, однако конструкция отличается от конструкции стандартного дерева. В каждом узле лучшая переменная для разделения определяется из подмножества пояснительных переменных, выбранных случайным образом в этом узле, в то время как для стандартных деревьев каждый узел разделяется с использованием наилучшей из всего набора переменных. Эта техника устойчива к переоснащению модели. Каждое дерево построено на 63% от исходного набора данных. Остальные 37% доступны для тестирования любого из деревьев. Таким образом, случайный лес называется самопроверенным. После построения деревьев B случайный предиктор леса

Где Θb – характеризует b-е случайное лесное дерево в терминах переменных разделения, точек среза в каждом узле и конечных узлов.

Пакет R с именем randomForest() реализует оценку и прогнозирование со случайными лесами. Имеет следующие параметры настройки:

1. ntree- количество деревьев, которые будут построены для построения случайного леса. Количество деревьев по умолчанию составляет 500.

2. mtry - количество предикторов, которые следует использовать при каждом разбиении узла. Когда мы выполняем регрессию методом случайного леса, по умолчанию mtry - это p/3, где p - количество предикторов.

Брейман (2001) предложил, что для выбора mtry следует попробовать значение по умолчанию, половину значения по умолчанию и дважды значение по умолчанию, а затем выбрать то, которое работает лучше всего.

6. Support Vector Machines (SVM) (сангл. Опорные векторные машины).

SVM - это контролируемый алгоритм обучения. Обычно он применяется для задач классификации, но также используется для регрессионного анализа. Он просто применяет линейную модель, но в многомерном пространстве, которое нелинейно связано с входным пространством. Ключевой момент в SVM состоит в том, чтобы минимизировать верхнюю границу ожидаемого риска, вместо того, чтобы минимизировать ошибку в данных обучения, автоматически избегая прилегания к данным. SVM можно определить как систему, которая использует пространство гипотез линейных функций в пространстве пространственных объектов больших размеров. Он использует неявное отображение входных данных в пространство пространственных объектов, определенное функцией ядра. Использование функции ядра полезно, когда данные далеки от линейного разделения. Хороший способ выбора функции ядра - через процедуру проб и ошибок. Следовательно, нужно попробовать более одной функции ядра, чтобы найти лучшее решение для конкретной проблемы. В регрессионном анализе SVM использует function-нечувствительную функцию потерь, т.е.

При использовании вышеуказанной функции ошибки, меньшие порога ℇ, будут игнорироваться.

Пакет R e1071, реализующий SVM. Имеет следующие параметры:

1. Ядро: указывает тип используемого ядра. Пакет e1071 имеет следующее меню выбора: радиальное, полиномиальное, сигмовидное и линейное ядро.

2. Эпсилон: как описано ранее, это эпсилон в ℇ-нечувствительной функции потерь. Значение по умолчанию составляет 0,1.

7. Bayesian Additive Regression Trees (BART) (с англ. Деревья байесовской аддитивной регрессии).

BART - это непараметрический регрессионный подход. Как и случайные леса, BART представляет собой модель суммы деревьев, которая может легче включать аддитивные эффекты по сравнению с одним деревом. Основная идея состоит в том, чтобы разработать модель сумм деревьев, наложив априор, который регулирует подгонку, сохраняя эффекты отдельных деревьев небольшими. Модель суммы деревьев:

где f - сумма многих моделей деревьев. Более конкретно,

где Tjпредставляет дерево регрессии со связанными с ним параметрами терминального узла Mj, а ɡ(x, Tj, Mj) является функцией, которая присваивает µijMj. Здесь i представляет конечный узел дерева j.

Эта модель может включать как основные, так и эффекты взаимодействия. Деревья в модели BART ограничены параметром регуляризации, чтобы быть слабыми учениками. Подгонка и вывод осуществляются с помощью итеративного байесовского алгоритма обратной подгонки MCMC. По сути, он использует размерно-адаптивные случайные базисные элементы. Этот подход обеспечивает полный последующий вывод, включая точечные и интервальные оценки неизвестной функции регрессии, а также предельные эффекты потенциальных предикторов. Отслеживая частоты включения предиктора, BART может также использоваться для выбора переменной без модели. Однако гибкость BART достигается за счет вычислительных затрат.

Пакет R BayesTree содержит функцию bart (), реализующую BART. Он имеет параметр настройки ntree, определяющий количество деревьев, которые должны быть построены при оценке модели BART. Значениепоумолчаниюсоставляет 200.

8. Least Absolute Shrinkage and Selection Operator (LASSO) (сангл. Оператор наименьшей абсолютной усадки и выбора)

В больших измерениях традиционная статистическая оценка, такая как процедура OLS, имеет тенденцию работать плохо. В частности, хотя оценки OLS обычно имеют низкую систематическую ошибку, они имеют тенденцию иметь высокую дисперсию прогноза и могут быть трудны для интерпретации. В работе Тибширани предложено LASSO, который выполняет усадку коэффициента и выбор переменных одновременно. Это сводит к минимуму среднеквадратичную ошибку с учетом ограничения на то, что сумма абсолютных значений коэффициентов должна быть меньше константы. Эта константа называется параметром настройки. LASSO обладает благоприятными характеристиками двух методов: усадка и ковариатный выбор. Он сокращает некоторые коэффициенты и устанавливает другие равными 0, тем самым обеспечивая интерпретируемые результаты. Вычисление решения LASSO - это задача квадратичного программирования с линейными ограничениями неравенства, которая может быть решена с помощью стандартных алгоритмов численного анализа.

В LASSO модель подходит так:

Используемый критерий является следующим:

при условии ограничения:

Где s - параметр настройки, управляющий величиной усадки, применяемой к оценкам. В качестве альтернативы, это можно рассматривать как решение проблемы вероятности наказания:

Здесь LASSO сжимает каждый коэффициент на постоянный коэффициент лямбда λ, который усекается до нуля. Это называется мягким порогом.

Если параметр настройки достаточно велик, то ограничение не будет иметь никакого эффекта, и полученное решение будет таким же, как с множественной линейной регрессией наименьших квадратов. Перекрестная проверка является полезным методом для оценки наилучшего значения s. Наиболее распространенными формами перекрестной проверки являются k-кратная, однозначная и обобщенная перекрестная проверка. Пакет R lars реализует LASSO. Используется перекрестная проверка в k-кратном размере.

9. Estimation Procedure (сангл. Процедураоценки)

В прогнозировании временных рядов мы всегда заинтересованы в прогнозировании на основе всей информации, доступной на момент прогноза. Поэтому мы рассматриваем распределение переменной «Y» в момент времени t в зависимости от информации, доступной в момент времени t, то есть Xt. Насколько нам известно, ни в одном предыдущем исследовании не было реализовано гибкое машинное обучение с моделями кластеризации волатильности. Итерационная процедура Кокрана Оркутта представляет собой процедуру в эконометрике для оценки модели линейной регрессии временных рядов при наличии автокоррелированных ошибок. Используя ту же концепцию, но на моделях машинного обучения, мы предлагаем процедуру оценки, описанную ниже.

Шаги для прогнозирования прибыли основаны на уравнениях:

Где, Ԑt= Yt- Ŷthtэто дисперсия Yt

Оцените модель (1), используя инструменты машинного обучения. Затем вычислите его остатки.

Установите GARCH (0,1) на остатки из шага 1, чтобы оценить изменяющуюся во времени дисперсию, используя модель (2). Это дает , расчетное стандартное отклонение, где t = 1,2,… ..T.

Преобразуйте Yt, используя из шага 2, чтобы уменьшить влияние кластеризации волатильности на Yt.

Используя Yt* повторите шаги 1-3 до сходимости.

Мы исследуем эффективность прогнозирования с 0, 1 и 2 итерациями алгоритма. Прогнозируемые значения преобразуются обратно в исходный масштаб, чтобы увидеть изменение производительности модели.

Расчеты, необходимые для выполнения всех повторяющихся оценок и прогнозов во времени, очень требовательны, особенно для случайного леса, SVR и BART по ежедневным доходам. Необходимость параллельных вычислений становится приоритетом для достижения этой цели, и мы используем вычислительный кластер с общим количеством 96 процессорных ядер и 368 ГБ ОЗУ, разделенных на четыре вычислительных узла. С помощью этого задачи распределяются между ядрами, обеспечивая управляемую вычислительную нагрузку.

Литература:

Кузнецов В.А., Якубов А.В. О подходах в международном регулировании криптовалют (Bitcoin) в отдельных иностранных юрисдикциях // Деньги и кредит. – 2016. – № 3. – С. 20–29.

Поляков И. Блокчейн и инфраструктура // Рынок ценных бумаг. – 2017. – № 4. – С. 24.

Марамыгин М.С., Прокофьева Е.Н., Маркова А.А. Экономическая природа и проблемы использования виртуальных денег (криптовалют) // Известия УрГЭУ. – 2015. – № 2 (58). – С. 37–43.

Русскоязычный веб-сайт в формате коллективного блога с элементами новостного сайта, созданный для публикации новостей, аналитических статей, мыслей, связанных с информационными технологиями, бизнесом и интернетом. URL: https://habr.com/ru/

Крупнейший ресурс о цифровых валютах, финтех-трендах и финансовых инновациях. URL: https://cryptonovosti.com

Информационный ресурс о криптовалютах, блокчейне и децентрализованных технологиях. URL: https://bitcryptonews.ru

Библиотека программиста — источник образовательного контента в IT-сфере. URL: https://proglib.io

Официальный сайт веб-приложения с открытым исходным кодом, которое позволяет Вам создавать и обмениваться документами, которые содержат код, уравнения, визуализацию и пояснительный текст [Официальный сайт]. URL: https://jupyter.org

Дистрибутив Python и R вместе с основными библиотеками для анализа данных и пакетным менеджером conda [Официальный сайт]. URL: https://www.anaconda.com

Общедоступная многоязычная универсальная интернет-энциклопедия со свободным контентом, реализованная на принципах вики. URL: https://ru.wikipedia.org/wiki/

Просмотров работы: 149