Что такое информация? Какое определение можно дать этому понятию? Такие вопросы ставит каждый учитель при объяснении основ теоретической информатики. И здесь возникает некоторая сложность, вместо прямого определения мы приводим и изучаем свойства, виды, стараемся пояснить термин на примерах. Объяснение этому, что информация является одной из сущностью мироздания, а значит дать определение этому понятию невозможно. Его просто нет. На бытовом уровне информация ассоциируется у нас с такими понятиями как «сведения», «факты», «данные», «знания» и многие другие. Однако в действительности для нужд информатики это определение и не требуется: необходимо лишь научиться измерять информацию.
Как же измерить информацию? Этот вопрос очень непростой. Ответ на него зависит от того, что же мы понимаем под словом «информация». Но поскольку определять информацию можно по-разному, то и способы измерения тоже могут быть разными. Существует два традиционных подхода к измерению информации: объемный (алфавитный) и вероятностный.
Алфавитный (объёмный) подход к измерению информации позволяет определить количество информации, заключенной в тексте, записанном с помощью некоторого алфавита. Этот подход разработал и описал советский учёный А.Н. Колмогоров. Подобный подход к оценке количества информации носит объективный характер, так как не зависит от получателя, принимающего сообщения. Алфавитный подход к определению количества информации не учитывает смысловое содержание информации и рассматривает информационное сообщение как последовательность знаков определенной знаковой системы. В алфавит входят все буквы, цифры, знаки препинания, скобки, пробел, специальные знаки. Полное число символов в алфавите называют мощностью алфавита и обозначают N. При алфавитном подходе считается, что каждый символ текста имеет определенный информационный вес, который обозначается i. Он символа зависит от мощности алфавита.
Информационный вес символа двоичного алфавита принят за единицу измерения информации и называется 1 бит. Количество информации одного символа (i) и мощность алфавита (N) связаны формулой: 2i =N.
При алфавитном подходе к измерению информации количество информации зависит от размера текста и мощности алфавита. Если весь текст состоит из K символов, то при алфавитном подходе информационный объем текста (I), содержащего K символов вычисляют по формуле: I=K*i ,где I - информационный объем текста, K - количество символов в тексте, i - информационный объем одного символа. Максимального размера алфавита не существует. Но есть алфавит, который назвали достаточным. Его мощность равна 256 символов. N=256; 256=2i, i=8, т.е. один символ этого алфавита весит 8 бит, который назвали байтом, т.е. 1 байт = 8 бит.
Вероятностный (энтропийный) подход – это подход, который учитывает ценность информации, содержащейся в сообщении для его получателя. К. Шеннон определил понятие «информация», как снятую неопределенность. Общая мера неопределенностей называется энтропией. В этом подходе количество информации – это мера уменьшения неопределённости знаний при получении информационных сообщений. Количество информации в сообщении определяется тем, насколько уменьшается эта мера после получения сообщения.
В вероятностном подходе 1 бит – это количество информации, которое мы получаем из опыта с двумя равновероятностными исходами. Для человека получение новой информации приводит к расширению знаний или к уменьшению неопределенности. Например, сообщение о том, что завтра среда, не приводит к уменьшению неопределенности, поэтому оно не содержит информацию. А теперь, пусть у нас имеется монета, которую мы бросаем на ровную поверхность. Сообщение о том, что выпал орёл при подбрасывании монеты уменьшает нашу неопределенность в два раза и несёт в себе 1 бит информации.
Американский учёный Р. Хартли процесс получения информации рассматривал как выбор одного сообщения из множества равновероятных сообщений, а количество информации, содержащееся в выбранном сообщении, определял как двоичный логарифм N. Таким образом, он вывел формулу, которая связывает между собой количество возможных информационных сообщений (N) и количество информации (I), которое несет полученное сообщение: I = log2N, где N=1/P. Но не всегда можно однозначно определить являются ли события равновероятностными или нет.
Для этогоамериканский учёный К. Шеннонпредложил другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений. В опытесk исходами вероятности наступления равны P1 , P2 ,…, Pkкаждый исход несёт в себе информацию
I1=log2 1/P1 , I2=log2 1/P2, … , Ik=log2 1/Pk.
Тогда по формуле Шеннона
I = - ( P1log2 P1 + P2 log2 P2 + . . . + Pk log2 Pk).
Эта формула принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. значения Рk могут различаться).
Таким образом, мы рассмотрели два подхода к измерению информации: алфавитный (объемный) и вероятностный (энтропийный).