Введение
Grid сумели обеспечить инфраструктуру для развертывания параллельных приложений в распределенной среде с высокой степенью автоматизации. Определение Grid было переопределено вместе года. Изначально Grid были определены как инфраструктура для обеспечения простого и недорогого доступа к высокопроизводительным вычислениям [2]. Тогда это было уточнено [18] как инфраструктура для совместного использования ресурсов и для совместного решения проблем. В последнее время в [9] определение Grid превращается в инфраструктуру для объединения и виртуализации ресурсов и разрешения их использования прозрачным способом. Сетевая инфраструктура демонстрирует несколько интересных функций. Одна из основных функций заключается в том, что Grid скрывает неоднородность своих компонентов, как оборудование, операционные системы или системы хранения, и служит промежуточным программным обеспечением это обеспечивает бесперебойную связь компонентов, которыми он управляет. Другой интересной характеристикой является прозрачное объединение многих видов ресурсов, таких как вычислительная мощность, хранение, данные и услуги. Это позволяет приложениям, развернутым в Grid, прозрачно делиться ресурсами и использовать предоставленную мощность более эффективно. Связанный атрибут - это возможность выделять и резервировать виртуализированные ресурсы. Виртуализация облегчает совместное использование ресурсов: это позволяет сохранить качество обслуживания гарантии для срочных приложений, а также предлагает истинную очистку ресурсов, использование неиспользованных ресурсов для выполнения пакетных вычислений. Эти функции делают Grid-вычисления привлекательными для предприятий, которые хотят преобразовать его в свою инфраструктуру для развертывания корпоративных приложений. Этот интерес привел к выработке нового термина, Предприятие Grid. Корпоративные Grid-вычисления отражают использование Grid-вычислений в контексте бизнеса или предприятия, а не для научного приложения. Первое поколение предприятия Grid решения, разработанные IBM [15] или Oracle [4], начали появляться. Доказательство для увеличения интереса к корпоративным сетям связан с недавним созданием Enterprise Grid Alliance (EGA) миссия развития общего предприятия. Эталонная модель Grid [14] и стимулирование использования Grid для корпоративных вычислений. Совсем недавно EGA и Global Grid Forum присоединились в форум по открытым сеткам (OGF) [6]. Цели OGF объединить цели академического и корпоративного приложения. Однако корпоративные сети еще не нашли широкого распространения в промышленности. Проблема в том, что для того, чтобы эффективно применять Grid-технологии для корпоративных приложений, многие технические и научные препятствия еще предстоит преодолеть. Первоначально, необходимость использования распределенных ресурсов для вычислительных интенсивных научных приложений привела к разработке Grid -архитектуры. Эти приложения хорошо подходят для автоматического распространения и планирования, и Grid-технологии сосредоточены на обеспечении виртуализированной абстракции вычислительных ресурсов для этих приложений. Однако корпоративные приложения имеют много характеристик, которые сделает их сложнее для развертывания в Grid инфраструктуре. Примерами являются государственная природа бизнес-приложений, типичная базовый многоуровневая архитектура, где выполнение запроса следует сложным путем через разнообразный набор компонентов, наличие транзакционных данных, и необходимость транзакционного взаимодействия между различными компонентами приложения. В этой статье мы нацелены на выявление некоторых пробелов между тем, что в настоящее время предоставляют Grid –инфраструктуры и какие корпоративные сети нужно предложить. Из того, что мы рассмотрим, последние достижения в этой области распределенных вычислений, которые помогут решить некоторые из проблем, а также выявить открытые проблемы для реализации корпоративной концепции Grid. Статья построена следующим образом. Первый в разделе 2 мы определяем некоторые основные требования в корпоративных сетях и противопоставляем их с текущими функциональными возможностями, предоставляемыми Grid-системами, для выявления любых несоответствий. Потом, мы опишем некоторые из последних достижений в распределенных системах, которые могут быть полезны для преодоления расхождения в разделе 3. Мы продолжаем. в Раздел 4 путем определения существующих открытых научных вызовы для реализации концепции Enterprise Grid. Наконец, мы представляем наши выводы в разделе 5
2 Разрыв между существующими сеточными технологиями и требования для корпоративных сетей
В этом разделе мы подробно рассмотрим несколько пробелов между тем, что в настоящее время обеспечивается технологией Grid, и тем, что необходимо для поддержки Grid c более широким спектром корпоративных приложений.
Раздел 1: поддержка онлайн-приложений традиционные корпоративные вычисления обычно состоят из смеси встроенных и онлайн-приложений. Grid уже хорошо владеют встроенными приложениями и обеспечивают сложную автоматизацию изготовления партии приложений, эффективно работают в больших распределенных инфраструктурах. Такие могут очень хорошо послужит основой для автоматизации программирования и выполнения пакетных корпоративных приложений. Для таких задач использование вхолостую ресурсов внутри организации позволяют лучше использовать ресурсоы и увеличение пропускной способности. Однако большая часть корпоративных приложений по своей природе интерактивна. Мы ссылаемся на их как онлайн-приложения, потому что конечный пользователь напрямую подключен к системе. Онлайн-приложения требуют своевременного выполнения запросов и оперативные ответы клиенту. Таким образом, одно узкое место в выполнении запроса может привести к неудовлетворительной производительности. То есть для онлайн-приложений основные показатели производительности среднее время ответа, часто со строгими ограничениями на его статистическое распределение. Корпоративные сети: вызовы впереди информационные системы или TPC-W [11] для веб-сайтов основанные системы. Однако большая часть современной Grid-технологии направлена на оптимизацию пропускной способности для приложений пакетного типа, т.е. большой набор задач, не обращая внимания на время ответа на индивидуальные запросы.
2. поддержка бизнеса с транзакционными данными приложения часто интенсивно используют данные. Они получают доступ, обрабатывать и манипулировать большими объемами данных, большинство из которых находятся в хранилищах баз данных. Доступ к таким данным почти всегда в контексте транзакций, чтобы гарантировать последовательность и долговечность изменений в данных. В то время как общие вычислительные запросы могут быть назначены вычислительные ресурсы совершенно произвольно, и во время выполнения запросов к базе данных должны выполняться в сайты, которые содержат базу данных. Динамическая миграция или репликация целых баз данных в настоящее время свободные машины, однако, не могут быть достигнуты с легкостью. Он также имеет дополнительные издержки протоколов синхронизации, которые отслеживают все данные реплики для согласованности. Например, в то время как Oracle 10g позволяет работать с базой данных несколько узлов в кластере, его серверы баз данных довольно сложны и относительно статичный. Таким образом, текущая подготовка в большинстве сред Grid ориентирована на приложения без сохранения состояния и иногда в приложениях, которые имеют доступ только для чтения постоянные данные, в которых репликация и кэширование может применяться довольно легко. Целью интеграции данных является предоставление однородного представления разнородных схем данных содержащие аналогичную информацию. Интеграция данных может быть важной проблемой в некоторых корпоративных приложениях, в которых данные из разных доменов выставляют разные схемы и однородные должны быть предоставлены средства просмотра и доступа. Кроме того, существует тенденция конвертации данных доступ к услугам. В этом контексте обеспечивает поддержку данных. интеграция и доступ через Grid. поддерживает воздействие различных источников данных (таких как реляционные и XML-данные) через однородную сеть, сервисные интерфейсы, которые могут быть очень полезны. В общем,была проделана огромная работа в контекст интеграции данных и OGSA-DAI выполнил первые шаги для интеграции данных к Grid. Таким образом, интеграция данных не может быть сложной задачей.
Раздел 3: Поддержка Stateful и Transactional
Бизнес приложения не только обращаясь к транзакционным данным, находящимся в серверных базах данных, они часто поддерживают состояние в коде приложения. Часто это состояние отражает взаимодействия между онлайн-клиентом и приложением (например, как информация о сеансе или корзина). Такие шаблоны взаимодействия уменьшают гибкость, в которой Отдельные задачи могут быть назначены на ресурсы Grid. Другая проблема в этом контексте заключается в том, что сбой сайта может привести к потере важного приложения. Бизнес-процессы могут длиться дни, недели, месяцы или даже годы. Это очень распространено для рабочего процесса и организованных веб-сервисов. Утрата взаимодействия с состоянием было бы неприемлемо в этом контексте. Кроме того, расширенная транзакция модели часто используются [7] в этом контексте для того, чтобы расслабиться в изоляции. В случае неудачи одна возможность достичь согласованности - прервать все текущие транзакции. Тем не менее, это на самом деле не вариант, так как они должны идти вперед, несмотря на неудачи, поддержка доступности для таких долго работающих приложений ограничена с современной технологией Grid.
3. Заполнение пробела: последние достижения в распределенных системах. Хотя есть много открытых проблем и проблемы, которые необходимо решить. Корпоративные сети становятся основной инфраструктурой, последние события в нескольких областях предложили многообещающие решения, которые могут быть применены в контексте корпоративных сетей. Здесь мы расскажем о некоторых из них. Репликация базы данных [2, 7,13] важно поддерживать сетку состояний и транзакционные онлайн-приложения, и базу данных самого уровня. Репликация базы данных была активной темой исследования в течение многих лет. Особенно в последние годы появилось много новых подходов. Важно то, что многие из них подходы имеют время отклика как важный показатель производительности, которые необходимы для учета Grid онлайн-приложений. Некоторые решения смотрели на ленивую репликацию, где транзакции обновления выполняются только в один и полученные обновления распространяются только после фиксации других реплик. Например, в [7] согласованность обеспечивается назначением каждому объекту мастера и только мастера может принимать и распространять обновления; более того назначение объектов мастерам и топология распространения ограничены, чтобы гарантировать правильное выполнение. Другая исследовательская линия, нацеленная сделать несогласованность явной для пользователя, обеспечивающий разную степень актуальности данных пользователю [9]. Свежесть меряет количество обновлений, которые могли быть пропущены по транзакциям и, следовательно, количественно граница устаревания данных, прочитанных транзакцией. Еще один набор ленивых подходов, таких как IceCube [5] и его кластерное расширение [4], был посвящен примирению в оптимистической репликации. Реплики могут работать параллельно без каких-либо мер для предотвращения конфликтов. Потом, конфликты из-за одновременного доступа фиксируются средствами семантических корректирующих действий. Другое направление исследований смотрело на масштабируемость решения для быстрой репликации данных, где обновления передаются перед фиксацией, что обеспечивает гораздо лучшие гарантии согласованности. Наиболее из этих подходов смотреть на решения, обеспечивающие 1CS. Они дополнительно используют асимметричную обработку обновлений [13] в какие транзакции обновления только полностью обработаны на одной реплике (как правило, разные транзакции полностью обрабатываются на разных репликах), в то время как другие реплики применяют только обновленные кортежи. Эта асимметричная обработка важна для достижения масштабируемости для рабочих нагрузок обновления [18]. Другие хотят подходы основаны на планировщиках [2], которые обеспечивают необходимый порядок сообщений и гарантии согласованности. Все эти подходы достигают некоторого разумного масштабирования до нескольких десятков узлов при обеспечении полной согласованности. И ленивая, и энергичная репликация могут найти свое место в сети предприятия, так как они оба позволяют воспользоваться дополнительными ресурсами и распределить нагрузку между ними. Важный вопрос, который также был рассмотрен это как спроектировать репликацию базы данных. Три различные подходы были определены: белый ящик, черный ящик и серый ящик. Подход «белого ящика» заключается в реализации репликации внутри база данных. Преимущество в том, что это может быть реализовано эффективно, однако требует доступа к коду базы данных, и логика репликации переплетается с логикой базы данных. На другая крайность спектра, каждый находит черный подходы коробки, которые не изменяют базу данных [1]. Однако есть недостаток, заключающийся в том, что транзакции должны выполняться последовательно, что затрудняет производительность базы данных. Наконец, серая коробка подходы [10] выступают за реализацию некоторых минимальных функциональности в базе данных, которая обеспечивает эффективную и масштабируемую репликацию на уровень промежуточного программного обеспечения. В последнее время ряд рефлексивных подходов [14] были изучены, чтобы разоблачить некоторые функциональные возможности базы данных для обеспечения производительности репликация на уровне промежуточного программного обеспечения. В корпоративном Grid, где Grid-технология должна в некоторой степени контролировать предоставление и распространение, вероятен подход репликации на основе промежуточного программного обеспечения быть более выгодным, потому что это позволяет лучшее взаимодействие между контролем реплики программное обеспечение и Grid-среда. Шаг в этом управлении может быть концепция сбора данных в разные базы данных реплицируются и там форма серверов баз данных, обслуживающая запросы все заявки [16].
4.Хотя в последнем разделе были показаны отдельные достижения, которые имеют большой потенциал для передачи в корпоративные сети, необходимо проделать дополнительную работу, сделанную для разработки целостного решения. В этой секции, мы кратко изложим некоторые из вопросов. Корпоративные сети: увеличение масштабируемости Grid данных. Большинство существующие стратегии репликации данных предполагают полную репликацию (то есть репликация полной базы данных в каждый сайт). Однако такой подход имеет предел масштабируемости, которого может быть недостаточно для будущего. Очень большие дата-центры. Частичная репликация просто реплицирует подмножество данных на каждом сайте и может быть решением для масштабируемости ([12]). Тем не менее, есть еще много вопросов, которые нужно решить в этом контексте. Один из интересных проблем исследования является комбинация полной и частичной репликации может обеспечить лучшую масштабируемость. Другая важная проблема заключается в том, что решения, основанные на чистой частичной репликации, вероятно, должны будут использовать распределенные атомное обязательство, которое является текущим узким местом распределенных информационных систем. Последние протоколы для высокопроизводительных распределенных атомных, например, сервер фиксации [18] может быть решение использовать частичную репликацию для повышения масштабируемости репликации базы данных. Использование группового общения может затруднить масштабируемость. Более конкретно, один из вариантов заключается в эксплуатации использования общего порядка многоадресной рассылки. Оптимистическая доставка, более агрессивная версия оптимистической многоадресной рассылки [13], была предложена для маскировки задержки многоадресной рассылки путем использования спонтанного общего порядка, который происходит в ЛВС [3]. эксплуатировали успешно оптимистично, доставка в сочетании с техникой переупорядочения уменьшить задержку репликации данных и минимизировать количество прерываний при оптимистичной доставке была неправильной. Гридизация с малой задержкой в глобальных сетях Требование корпоративных сетей - это объединение центров обработки данных в глобальных сетях. Для этого потребуется поддержка репликации данных через WANs. WAN отличаются от LAN в основном латентность общения. Эта большая задержка становится особенно неприятной для группы основанные на коммуникации подходы репликации в что требуемый порядок и гарантии надежности могут потребовать нескольких раундов сообщений. Однако, ленивые стратегии репликации может быть неприемлемым для некоторых транзакционных данных с интенсивным обновлением. Таким образом, необходимы новые протоколы репликации с более высокими уровнями масштабируемость и меньшие задержки, в то же время время достижения приемлемых уровней согласованности. Некоторые первоначальные шаги предпринимаются к данным репликация в глобальных сетях [1, 22, 39], в которых используется групповой связи через глобальные сети либо свернуто или просто уволено. Сокращение накладных расходов на гридификацию решающий аспект для успешной гридизации Корпоративным приложениям является снижение внутренних издержек координации между сайтами. Современные системные области сети предоставляют функциональные возможности, которые могут быть использованы для сокращения этих издержек делегируя функции, возможно динамически, базовое оборудование. Некоторые исследователи успешно эксплуатировал современные сети области системы в контексте промежуточного программного обеспечения распределенной разделяемой памяти [6]. Целостный подход к виртуализации и соглашениям об уровне обслуживания, несмотря на достижения в виртуализации различных видов ресурсов (хранилища, сети, уровень сервера и т. д.), необходимо принять новое исследование целостный подход к виртуализации, в котором вычислительные требования приложения через различные уровни автоматически анализируются. Оттуда необходимые ресурсы посвящены для развертывания и запуска нового приложения и скорректированы автономно к изменениям в и рабочая нагрузка и приоритеты, извлеченные из SLA. Были некоторые ранние подходы к SLA для коммерческих сетей, таких как [17]. Масштабируемая и последовательная Grid многоуровневой архитектуры Современное состояние
адресованные решения для некоторых из Grid вопросы отдельных уровней. Гораздо больше работы должно быть сделано, как в отношении отдельных уровней и по всему многоуровневой архитектуре с учетом любой формы данных и зависимости выполнения.
5. Выводы
В этой статье мы определили некоторые недостатки современной Grid-технологии, когда дело доходят корпоративные приложения. Проблемы в основном из-за интерактивной природы бизнес-приложений, большой объем данных, которые находятся в системах баз данных и требует транзакционный доступ, а также компонентной и многоуровневой архитектуры современных корпоративных приложений. Тем не менее, мы считаем, что многие недавние исследования достижения в области управления данными и распределенные системы могут применяться и включаться в Grid-инфраструктуру, чтобы стать на шаг ближе к тому, что OGF предусматривает в качестве корпоративной сети. Репликация, кэширование, методы онлайн-реконфигурации и механизмы распределения нагрузки, которые были предложены, кажутся многообещающими кандидатами. Тем не менее, мы считаем, что технология корректировки предложенная должна быть сделана, они работают в Grid-среде. Это направлено на содействие перекрестному удобрению между Grid и сообществом распределенных систем, сделать это мы также думаем, что есть некоторые нерешенные вопросы, которые все еще нуждаются в дальнейшем фундаментальные исследования.
Литература:
Amir, Y., Danilov, C., Miskin-Amir, M., Stanton, J., Tutu, C.: On the performance of consistent wide-area database replication. Technical Report CNDS-2003-3, John Hopkins University (2015)
2. Amza, C., Cox, A.L., Zwaenepoel, W.: Distributed versioning: consistent replication for scaling backend databases of dynamic content web sites. In: Int. Middleware Conf. (2016)
3. Balakrishnan, M., Birman, K.: PLATO: Predicitve latency-aware total ordering. In: Proc. of the Int. Symp. on Reliable Distributed Systems (SRDS) (2016)
4. Barga, R., Lomet, D., Weikum, G.: Recovery guarantees for general multi-tier applications. In: Int. Conf. on Data Engineering (ICDE) (2012)
5. Bartoli, A., Jiménez-Peris, R., Kemme, B., and all: Adapt: towards autonomic web services. In: Distributed Systems Online (2015)
6. Bilas, A., Iftode, L., Singh, J.P.: Evaluation of hardware support for shared virtual memory clusters. In: Proc. of the 12th ACM International Conference on Supercomputing (ICS98) (1998)
7. Breitbart, Y., Korth, H.F.: Replication and consistency: being lazy helps sometimes. In: ACM Int. Conf. on Principles of Database Systems (PODS) (20017)
8. Cardellini, V., Casalicchio, E., Colajanni, M., Yu, P.S.: The state of the art in locally distributed Web-server systems. ACM Comput. Surv. 34(2), 263–311 (2018)
9. Chen, J., Soundararajan, G., Amza, C.: Autonomic provisioning of backend databases in dynamic content web servers. In: Int. Conf. on Autonomic Computing (ICAC) (2006)
10. Council, T.P.P.: TPC Benchmark C (2016)
11. Council, T.P.P.: TPC Benchmark W (2016)
12. de Sousa, A.L.P.F., Oliveira, R.C., Moura, F., Pedone, F.: Partial replication in the database state machine. In: IEEE Int. Symposium on Network Computing and Applications (2017)
13. Elnikety, S., Zwaenepoel, W., Pedone, F.: Database replication using generalized snapshot isolation. In: IEEE Int. Symp. on Reliable Distributed Systems (SRDS) (2015)
14. Enterprise Grid Alliance: EGA Reference Model (2015)
15. Ferreira, L., Easton, J., Kra, D., et.al.: Patterns: Emerging Patterns for Enterprise Grids. IBM RedBooks (2016)
1. Бегунов А.А. Применение результатов моделирования для оптимизации и управления технологическими процессами // Параллельные вычислительные технологии: Тр. Междунар. науч. конф. (28 янв. – 1 февр. 2008 г., г. Санкт-Петербург). 2008. C. 31–38.
2. Foster I., Kesselman C. The Grid 2: Blueprint for a New Computing Infrastructure. Second edition. San Francisco: Morgan Kaufmann, 2003. 750 p.
3. Foster I., Kesselman C., Tuecke S. The Anatomy of the Grid: Enabling Scalable Virtual Organizations // International J. of Supercomputer Applications and High Performance Computing. 2001. V. 15, No 3. P. 200–222.
4. Лукичев А.С. Интеграция SOA- и классических высокопроизводительных приложений // Научный сервис в сети Интернет: технологии распределенных вычислений: Труды Всероссийск. науч. конф. (18–23 сентября 2006 г., г. Новороссийск). М.:Изд-во МГУ, 2006. C. 42–44.
1. Бегунов А.А. Применение результатов моделирования для оптимизации и управления технологическими процессами // Параллельные вычислительные технологии: Тр. Междунар. науч. конф. (28 янв. – 1 февр. 2008 г., г. Санкт-Петербург). 2008. C. 31–38.
2. Foster I., Kesselman C. The Grid 2: Blueprint for a New Computing Infrastructure. Second edition. San Francisco: Morgan Kaufmann, 2003. 750 p.
3. Foster I., Kesselman C., Tuecke S. The Anatomy of the Grid: Enabling Scalable Virtual Organizations // International J. of Supercomputer Applications and High Performance Computing. 2001. V. 15, No 3. P. 200–222.
4. Лукичев А.С. Интеграция SOA- и классических высокопроизводительных приложений // Научный сервис в сети Интернет: технологии распределенных вычислений: Труды Всероссийск. науч. конф. (18–23 сентября 2006 г., г. Новороссийск). М.:Изд-во МГУ, 2006. C. 42–44.
16. Бегунов А.А. Применение результатов моделирования для оптимизации и управления технологическими процессами // Параллельные вычислительные технологии: Тр. Междунар. науч. конф. (28 янв. – 1 февр. 2018 г., г. Санкт-Петербург). 2018. C. 31–38.
17. Foster I., Kesselman C. The Grid 2: Blueprint for a New Computing Infrastructure. Second edition. San Francisco: Morgan Kaufmann, 2015. 750 p.
18. Foster I., Kesselman C., Tuecke S. The Anatomy of the Grid: Enabling Scalable Virtual Organizations // International J. of Supercomputer Applications and High Performance Computing. 2017. V. 15, No
19. P. 200–222. 4. Лукичев А.С. Интеграция SOA- и классических высокопроизводительных приложений // Научный сервис в сети Интернет: технологии распределенных вычислений: Труды Всероссийск. науч. конф. (18–23 сентября 2016 г., г. Новороссийск). М.: Изд-во МГУ, 2016. C. 42–44.