-
Notifications
You must be signed in to change notification settings - Fork 0
Инф3. Меры и единицы количества информации синтаксического и семантического уровней.
Меры и единицы количества и объема информации
Сообщение – форма представления информации в виде совокупности знаков (символов), используемая для передачи.
Сообщение может изучаться на трех уровнях:
- синтаксическом - где рассматриваются внутренние свойства сообщений
- семантическом - где анализируется смысловое содержание сообщения, его отношение к источнику информации
- прагматическом - где рассматриваются отношения между сообщением и получателем
Для каждого из рассмотренных выше уровней проблем передачи информации существуют свои подходы к измерению количества информации и свои меры информации. Различают соответственно меры информации синтаксического уровня, семантического уроня и прагматического уровня.
Количественная оценка информации этого уровня не связана с содержательной стороной информации, а оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.
Для измерения информации на синтаксическом уровне вводятся два параметра:
- объем информации (данных) – Vд (объемный подход)
- количество информации – I (энтропийный подход)
Каждый новый символ в сообщении увеличивает количество информации, представленной последовательностью символов данного алфавита. Если теперь количество информации, содержащейся в сообщении из одного символа, принять за единицу, то объем информации (данных) Vд в любом другом сообщении будет равен количеству символов (разрядов) в этом сообщении. Так как одна и та же информация может быть представлена многими разными способами (с использованием разных алфавитов), то и единица измерения информации (данных) соответственно будет меняться.
Так, в десятичной системе счисления один разряд имеет вес, равный 10, и соответственно единицей измерения информации будет дит (десятичный разряд). В этом случае сообщение в виде п-разрядного числа имеет объем данных Vд = п дит.
Например, четырехразрядное число 2009 имеет объем данных Vд = 4 дит.
В двоичной системе счисления один разряд имеет вес, равный 2, и соответственно единицей измерения информации будет бит (bit (binary digit) – двоичный разряд). В этом случае сообщение в виде n-разрядного числа имеет объем данных Vд = п бит.
Например, восьмиразрядный двоичный код 11001011 имеет объем данных Vд = 8 бит.
В современной вычислительной технике наряду с минимальной единицей измерения данных бит широко используется укрупненная единица измерения байт, равная 8 бит. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).
1 Килобайт (Кбайт) = 1024 байт = 210 байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт = 1 048 576 байт;
1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт = 1 073 741 824 байт;
1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт = 1 099 511 627 776 байт;
1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт = 1 125 899 906 842 624 байт.
В теории информации и кодирования принят энтропийный подход к измерению информации. Этот подход основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого, количество информации в сообщении определяется как мера уменьшения неопределенности состояния данной системы после получения сообщения. Неопределенность может быть интерпретирована в смысле того, насколько мало известно наблюдателю о данной системе. Как только наблюдатель выявил что-нибудь в физической системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной.
Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе какого-либо процесса (испытания, измерения и т.д.) неопределенности. При этом в качестве меры неопределенности вводится энтропия Н, а количество информации равно:
I = Hapr – Haps
Hapr – априорная энтропия о состоянии исследуемой системы или процесса
Haps – апостериорная энтропия
Апостериори – происходящее из опыта (испытания, измерения).
Априори – понятие, характеризующее знание, предшествующее опыту (испытанию), и независимое от него.
В случае, когда в ходе испытания имевшаяся неопределенность снята (получен конкретный результат, т. е. Н = 0), количество полученной информации совпадает с первоначальной энтропией.
I = Hapr
Пусть у нас имеется 32 различные карты. Возможность выбора одной карты из колоды – 32. До произведения выбора, естественно предложить, что шансы выбрать некоторую определенную карту, одинаковы для всех карт. Произведя выбор, мы устраняем эту неопределенность. При этом неопределенность можно охарактеризовать количеством возможных равновероятностных выборов. Если теперь определить количество информации как меру устранения неопределенности, то полученную в результате выбора информацию можно охарактеризовать числом 32. Однако удобнее использовать не само это число, а логарифм от полученной выше оценки по основанию 2:
H = log2 m,
где m – число возможных равновероятных выборов (При m=2, получим информацию в один бит).
То есть в нашем случае
H = log2 32 = 5.
Для измерения смыслового содержания информации, т. е. ее количества на семантическом уровне, наибольшее распространение получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение.
Если назвать имеющиеся у получателя знания о данном предмете тезаурусом, то количество информации, содержащееся в некотором сообщении, можно оценить степенью изменения индивидуального тезауруса под воздействием данного сообщения.
Тезаурус — совокупность сведений, которыми располагает пользователь или система.
Иными словами, количество семантической информации, извлекаемой получателем из поступающих сообщений, зависит от степени подготовленности его тезауруса для восприятия такой информации.
В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Iс, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус.
Рассмотрим два предельных случая, когда количество семантической информации Iс равно 0:
- при Sp = 0 пользователь не воспринимает (не понимает) поступающую информацию
- при S —> ∞ пользователь «все знает», и поступающая информация ему не нужна
Максимальное количество семантической информации потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (S = Sp opt), когда поступающая информация понятна пользователю и несет ему ранее неизвестные (отсутствующие в его тезаурусе) сведения.