Фактографические базы данных - Студенческий научный форум

XIII Международная студенческая научная конференция Студенческий научный форум - 2021

Фактографические базы данных

Лебедева Я.В. 1
1БИТИ НИЯУ МИФИ
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

ВВЕДЕНИЕ

Актуальность исследования. Технический прогресс не стоит на месте. С увеличением масштабов информатизации общества появляется все больше и больше информации, разнообразных данных и сведений, которые необходимо структурировать. С этой цель создаются разнообразные базы данных. База данных – это организованная структура, предназначенная для хранения, изменения и обработки взаимосвязанной информации, преимущественно больших объемов [1]. Именно с постоянным увеличением количества информации проблема ее структурирования и организации хранения остается всегда актуальной.

Целью данной исследовательской работы является изучение фактографических баз данных, их структуры и назначения.

Для достижения цели данного исследования были поставлены следующие задачи:

выделение разновидностей баз данных;

определение понятия «Фактографическая база данных»;

выделение видов фактографических баз данных.

Предметом исследования является понятие «фактографическая база данных».

Методы исследования. На этапах исследовательской работы были использованы различные методы исследования. Теоретические методы в рамках данной работы включали в себя анализ литературы и научных источников по теме исследования.

Практическая значимость работы заключается в приобретении знаний в области изучения баз данных и их разновидностей.

1 РАЗНОВИДНОСТИ БАЗ ДАННЫХ

Проведение классификации баз данных – процесс условный. Существует огромное множество признаков, по которым базы данных можно разделить на группы.

По типу хранимой информации базы данных делятся на документальные, лексикографические и фактографические [2]. Документальными считаются библиографические, реферативные и полнотекстовые базы данных. Особенностью библиографических баз данных является их способность хранить только выходные данные печатных изданий (название, автор, год издания, издательство, количество страниц и т.д.). Представителем такой базы данных является библиотечный каталог.

Реферативные базы данных содержат не только выходные данные, но и небольшое содержание описываемой публикации (так называемый реферат). Отсюда и название самой БД.

Исходя из названия «Полнотекстовые базы данных», можно сделать вывод о том, что они содержат полный текст документа. Примером такой базы данных можно считать справочные юридические системы. Для работы с законами и нормативными актами недостаточно только, например, выходных данных документа, необходим его полный текст.

Лексикографические базы данных – это разнообразные словари (толковые, многоязычные), классификаторы, кодификаторы, тезаурусы, рубрикаторы, которые используются в качестве справочников вместе с фактографическими базами данных [3].

Фактографические базы данных – это базы данных, которые содержат информацию, относящуюся непосредственно к предметной области.

Если рассматривать база данных по степени структурированности информации, то среди них можно выделить структурированные и неструктурированные. К неструктурированным относятся базы, организация которых строится на основе семантических сетей. Частично структурированными являются гипертекстовые документы.

Базы данных можно классифицировать по типу используемой модели данных. По рассматриваемому признаку они делятся на иерархические, сетевые, объектно-ориентированные и реляционные. Иерархические и сетевые БД относятся к теоретико-графовым моделям, так как отражают совокупность объектов реального мира в виде графа связанных информационных объектов.

Иерархическая модель наиболее точно подходит для описания предметных областей, в которых уже имеется некоторая иерархия объектов (сборка сложного изделия из комплектующих). Однако такая модель имеет и некоторые недостатки: избыточность и недостаточная гибкость. Сетевая модель устраняет некоторые недостатки иерархической, однако это происходит за счет существенного усложнения.

Большая часть коммерческих СУБД основывается именно на реляционной модели данных. Объектно-ориентированные базы данных в настоящее время очень перспективны. Это объясняется наличием в них встроенных средств моделирования взаимодействия объектов.

Классификация баз данных на рассмотренных признаках не заканчивается. По характеру организации хранения данных выделяют персональные, интегрированные и распределенные БД.

Таким образом, базы данных можно классифицировать по множеству разнообразных признаков. БД для хранения и работы с информацией применяются почти во всех областях жизнедеятельности человека.

2 ФАКТОГРАФИЧЕСКИЕ БАЗЫ ДАННЫХ

2.1 Что такое фактографическая база данных

Прежде всего необходимо определиться с понятием «Фактографическая база данных». Что же это такое? Фактографическая база данных – это БД, которая накапливает и хранит данные в виде множества экземпляров одного или нескольких типов информационных объектов. Такое название база данных получила, потому что каждый экземпляр информационного объекта содержит информацию по какому-либо факту, событию, вычлененному от остальных сведений и фактов [4].

Фактографические базы данных оперируют со сведениями, которые представлены в виде формализованных записей данных. Примером фактографических БД являются базы данных, которые хранят информацию о складах, о составе работников некоторого предприятия и т.д.

Важно отметить, что такие базы данных хранят не документы, а сведения об объектах предметной области, и строятся на основе реляционных БД. Их предназначение – поиск однозначного ответа на запрос и решение поставленной задачи. Фактографические информационные системы можно условно разделить на две группы:

информационно-справочные системы;

системы оперативной обработки данных.

Системы оперативной обработки данных решают задачи, связанные с управлением производством, бухгалтерским учетом и т.д.

Фактографическая система, которая накапливает сведения по определенным лицам, каждому конкретному лицу в базе данных ставит в соответствие запись, которая состоит из таких сведений, как фамилия, имя, отчество, год рождения, место учебы, место работы, образование и т.д.

Комплектование информационной базы данных в фактографических информационных системах включает обязательный процесс структуризации входной информации из документального источника. Структуризация включает несколько этапов. Это, прежде всего, выделение экземпляров информационных объектов определенного типа, информацию о котором хранят в документе, и заполнение его реквизитов [5].

2.2 Виды фактографических баз данных

Среди фактографических баз данных выделяют три большие группы: теоретико-графовые, теоретико-множественные, объектно-ориентированные. Типы фактографических баз данных представлены на рисунке 1 [6].

Рисунок 1 – Фактографические модели баз данных

2.2.1 Теоретико-графовые базы данных

Теоретико-графовые базы данных в свою очередь делятся на иерархические и сетевые.

Иерархическая модель базы данных является одной из первых появившихся моделей. Главной причиной этого является то, что именно иерархическая модель представления наиболее точно и естественно отражает множественные связи объектов в природе: существует один главный объект и большое множество подчиненных (дочерних) ему объектов. Данные и связи между ними в иерархической базе данных представляются в виде графа (дерева). На рисунке 2 представлено графическое отображение иерархической базы данных.

Рисунок 2 – Упорядоченный граф

Дерево, представленное на рисунке 2, – упорядоченное в соответствии с иерархией наборов элементов (узлов). Связь между элементами осуществляется посредством ветвей. Понятие «Дерево» используется как определенный тип данных. Такой тип является составным и может включать в себя поддеревья и подтипы. Данная информация дает возможность перейти к другому определению базы данных. База данных – это совокупность деревьев, каждый из которых является физической БД. Каждое дерево состоит из единственного родительского узла и связанного с ним множества подчиненных типов. Корневым является тип, который не имеет родительского типа, но имеет подчиненные. Дочерние типы, которые имеют один и тот же родительский, называются близнецами.

Иерархическая система – это упорядоченная совокупность экземпляров деревьев, каждое из которых содержит экземпляры записей. Содержание базы данных хранится в полях этих записей. Поле записи – это минимальная, неделимая единица данных.

Достоинством иерархической базы данных является высокая скорость обработки данных.

Сетевая модель базы данных представляет собой обобщенный вариант иерархической модели. Основным отличием сетевой модели базы данных является возможность наличия у дочерних типов нескольких родительских. На рисунке 3 представлена схема сетевой модели данных.

Рисунок 3 – Сетевая модель данных

Для описания сетевой модели используются понятия «набор», «агрегат», «запись», «элемент данных». Элемент данных в сетевой модели – то же, что и поле записи в иерархической, – минимальная единица данных. Выделяют два типа агрегатов: агрегат типа вектор и агрегат типа повторяющаяся группа. Агрегат типа вектор – это набор элементов данных. Агрегат типа повторяющаяся группа – совокупность векторов данных. Запись – совокупность агрегатов данных. Набор – это граф, который связывает два типа записи. Набор отражает иерархическую связь между двумя типами записей. На рисунке 4 представлен пример реализации базы данных в соответствии с сетевой моделью.

Рисунок 4 – Пример структуры данных в сетевой модели

Достоинство сетевой модели данных – возможность более гибкого отображения множественных связей между объектами.

Недостатком такой модели организации базы данных является высокая сложность построения БД. Из-за большого числа связей ослабляется контроль за их целостностью.

2.2.2 Теоретико-множественные базы данных

Теоретико-множественные базы данных включают в себя реляционные, постреляционные и многомерные модели баз данных.

Реляционная база данных основывается на отношении, представляющим собой двумерную таблицу, содержащую множество строк (кортежей) и столбцов (полей или атрибутов). Таблица представляет определенный рассматриваемый объект предметной области. Поля такой таблицы описывают его конкретные свойства, а строки – конкретные экземпляры объекта. В каждом отношении является обязательным наличие первичного ключа. Первичный ключ – атрибут или набор атрибутов, однозначно определяющий единственный кортеж.

Для отражения связи между объектами используется связывание таблиц посредством использования внешних ключей.

Достоинством реляционной базы данных является ее простота и логическая замкнутость, а недостатком – сложность системы описания различных связей между таблицами.

Постреляционные модели данных появились в результате развития реляционной модели. Основное отличие состоит в том, что в постреляционной модели допустимы многозначные поля. Многозначные поля можно представить, как самостоятельные таблицы, которые встроены в исходную таблицу. В постреляционной модели осуществляется поддержка ассоциативных полей, которые в совокупности образуют ассоциацию: в каждой строке первое значение одного столбца соответствует первым значениям всех остальных столбцов ассоциации.

На рисунке 5 представлено сравнение организации данных в реляционной и постреляционной моделях.

Рисунок 5 – Реляционная и постреляционная модели данных

Достоинства постреляционной модели данных заключаются в более эффективном хранении данных и меньшем количестве таблиц по сравнению с реляционной моделью.

Недостаток постреляционной модели такой же, как и у реляционной модели, – сложность поддержания логической согласованности данных.

В настоящее время популярность набирает многомерное представление баз данных. Многомерная модель основывается на многомерности логического представления структуры информации. Основные понятия многомерной модели базы данных – измерение и ячейка.

Измерение – множество данных одного типа, которые составляют грань n-образного куба. На рисунке 6 представлена многомерная модель базы данных.

Рисунок 6 – Трехмерный куб в многомерной модели

Ячейка – это поле, значение которого можно определить всей совокупностью измерений. Значение ячейки может быть переменной или формулой.

Работать с многомерными моделями позволяют специальные СУБД. Для рассмотрения принципа их работы необходимо разобрать понятия «агрегируемость», «историчность» и «прогнозируемость».

Агрегируемость – различные уровни обобщения информации.

Историчность – высокий уровень статичности данных и связей между ними, упорядочение данных во времени в процессе их обработки и представления пользователям.

Прогнозируемость определяется использованием специальных функций прогнозирования.

Для организации данных в многомерных СУБД применяются две схемы – поликубическая и гиперкубическая. В поликубической модели у кубов могут быть различными как размерности, так и измерения-грани. В гиперкубической модели размерности кубов одинаковы, а измерения различных кубов совпадают.

Срез – некоторое подмножество куба, которое задается фиксацией заданного количества измерений. Срез используется для представления информации для пользователей в виде двумерных таблиц.

Многомерные модели баз данных используют для представления больших БД. Многомерные модели позволяют обрабатывать огромное количество информации, что является несомненным достоинством рассматриваемой модели.

2.2.3 Объектно-ориентированные базы данных

Главным отличием объектно-ориентированной базы данных от остальных моделей фактографических БД является использование объектно-ориентированных методов манипулирования данными – инкапсуляции, наследования и полиморфизма.

Инкапсуляция – это возможность разграничения доступа различных программ, приложений, методов и функций (доступа различных категорий пользователей) к базе данных. Под инкапсуляцией еще понимают видимость – степень доступности отдельных свойств объекта.

Наследование – полная передача всех свойств родительского элемента дочерним. Наследование свойств можно распространить и на объекты, которые не являются дочерними к рассматриваемому.

Полиморфизм – возможность одного и того же приложения манипулировать с данными разных типов.

Основным достоинством объектно-ориентированной модели является возможность моделировать сложные связи между объектами.

Таким образом, были рассмотрены все модели фактографических баз данных. Были выделены основные достоинства и недостатки каждой модели, на основе чего можно сделать выбор в пользу наиболее удобного способа реализации той или иной фактографической базы данных.

ЗАКЛЮЧЕНИЕ

В процессе проведения данной исследовательской работы были достигнуты полученные цели и задачи. Результатом работы является получение знаний в области фактографических баз данных.

Изучение разновидностей баз данных позволило оценить масштаб рассматриваемой области. Именно такое большое разнообразие баз данных говорит об их широком применении во всех областях деятельности человека. Действительно, в современном мире невозможно найти такой сферы жизни, где не требовалось бы структурировать и хранить информацию. Базы данных выполняют множество других полезных функций, облегчающих работу с информацией и ее своевременное обновление.

Фактографические базы данных оперируют со сведениями, представленными в виде формализованных записей данных. Такие базы данных применяются в разнообразных областях деятельности человека. Например, на муниципальном уровне – это социально-демографические БД (паспортный стол, списки избирателей), жилищно-коммунальные БД (финансово-лицевые счета) и т.д.

На основании всей изученной информации можно сделать вывод о необходимости применения фактографических баз данных во многих областях жизни человека. Это создает возможность хранить информацию в соответствии с определенными критериями по ее отбору и проводить соответствующее структурирование.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Что такое база данных [Электронный ресурс] – URL: https://hostiq.ua/wiki/database/ (дата обращения: 14.11.2020);

Классификация баз данных [Электронный ресурс] – URL: http://www.sqlshop.ru/publ/klassifikacija_baz_dannykh/1-1-0-4 (дата обращения: 14.11.2020);

Лексикографические базы [Электронный ресурс] – URL: http://www.proect60.narod.ru/index26_3.html (дата обращения: 14.11.2020);

Медведкова И.Е. Базы данных [Текст]: учебное пособие/И.Е. Медведкова, Ю.В. Бугаев, С.В. Чикунов; Воронеж. гос. ун-т инж. технол. – Воронеж: ВГУИТ, 2014. – 108 с.;

Коломейченко А.С., Польшакова Н.В., Чеха О.В. Информационные технологии [Текст]: учебное пособие/А.С. Коломейченко, Н.В. Польшакова, А.В. Чеха. – СПб.: Издательство «Лань», 2018. – 228 с.;

Шнырев С.Л. Базы данных [Текст]: учебное пособие/С.Л. Шнырев. – М.: НИЯУ МИФИ, 2015. – 224 с.

Просмотров работы: 8563