Спирина, М.С. Дискретная математика

Это формула К. Шеннона, дающая среднее значение количе­ ства информации, приходящееся на один символ алфавита. Функция Я достигает максимума, когда частота для всех п со­ общений одинакова и, следовательно, равна pf= 1 /п. В этом случае ” 1 1 Я шах = Х - , 0 ё2 « = n~\Og2П = log2 П. Таким образом, формула Р. Хартли является частным случаем формулы Шеннона, когда исходы равновероятны. В тех случаях, когда мы не обладаем всей информацией о статистической веро­ ятности исходов, а условно считаем их равновероятными, мы также будем пользоваться для подсчетов формулой Хартли. Чтобы от­ личать такое ее применение от непосредственного, будем исполь­ зовать понятие частной информации. Тем самым мы подчеркива­ ем тот частный случай, когда принимаем условие равновероят­ ных исходов. Частную информацию, содержащуюся в сообщении Х„ будем находить по формуле Jx = log2( l /р ) . Отметим очевидные следствия формулы Хартли. Если возмож­ но передать только один сигнал (п = 1), то Я = log21 = 0. Видим, что подобные сообщения не содержат информации вообще. На­ пример, если каждое утро восходит солнце, то, вставши в любой день и увидев светящее солнце, мы ничего нового не узнаем. Если с равной вероятностью могут передаваться два сигнала (п = 2), то Я = log22 = 1 бит. Это также понятно, поскольку форму­ ла Хартли как раз и строилась в предположении о двоичности бита, и мы лишь проверили ее действие на себя и тем самым непротиворечивость. Так, нетикающие часы свидетельствуют нам о том, что они остановились, тикающие — что идут. С вероятностной точки зрения рассмотрим Нх — энтропию до принятия сообщения и Н2 — энтропию после принятия сообще­ ния. Тогда J = Я, - Я2. Пусть эксперимент состоит в бросании игральной кости, где J — информация о результате бросания. По окончании экспери­ мента известен результат бросания, неопределенность снята и Я2 = 0, поэтому информация равна энтропии системы J = Я. Задача 34. Найдем количество информации, имеющееся при получении сообщения на русском языке. Решение. Так как в русском языке 33 буквы и 1 пробел между словами, то необходимо 34 места для символов. Тогда по формуле Хартли имеем J = log234 = 5,09 бит. В словах русского языка буквы встречаются с разной частотой, поэтому необходим вероятностный подход, т.е. учет статистиче­ ской вероятности появления буквы в тексте. Анализ больших тек­ стов дает такие численные значения статистической вероятности появления букв в тексте. 304

RkJQdWJsaXNoZXIy MTExODQxMg==