Лабораторная работа
№1
Количественная мера информации
ЦЕЛЬ РАБОТЫ:
экспериментальное изучение количественных аспектов информации.
ЛАБОРАТОРНОЕ
ЗАДАНИЕ
1.
Определить
количество информации (по Хартли), содержащееся в заданном сообщении, при
условии,
что значениями являются буквы кириллицы.
«Фамилия
Имя Отчество» завершил ежегодный съезд эрудированных
школьников, мечтающих глубоко проникнуть в тайны физических явлений и
химических реакций
2.
Построить таблицу
распределения частот символов, характерные для заданного
сообщения. Производится так называемая частотная селекция,
текст сообщения анализируется как поток символов и высчитывается частота
встречаемости каждого символа. Сравнить с имеющимися данными в табл 1.
3.
На основании полученных данных определить
среднее и полное количество информации, содержащееся в заданном сообщении
4.
Оценить
избыточность сообщения.
КРАТКИЕ ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ
Количество информации
по Хартли и Шеннону
Понятие
количество информации отождествляется с понятием информация. Эти два понятия
являются синонимами. Мера информации должна монотонно возрастать с увеличением
длительности сообщения (сигнала), которую естественно измерять числом символов
в дискретном сообщении и временем передачи в непрерывном случае. Кроме того, на
содержание количества информации должны влиять и статистические характеристики,
так как сигнал должен рассматриваться как случайный процесс.
При этом наложено ряд
ограничений:
1. Рассматриваются
только дискретные сообщения.
2. Множество различных
сообщений конечно.
3. Символы,
составляющие сообщения равновероятны и независимы.
Хартли впервые
предложил в качестве меры количества информации принять логарифм числа возможных
последовательностей символов.
I=log
mk=log N (1)
К.Шеннон попытался
снять те ограничения, которые наложил Хартли. На самом деле в рассмотренном
выше случае равной вероятности и независимости символов при любом k
все возможные сообщения оказываются также равновероятными, вероятность каждого
из таких сообщений равна P=1/N.
Тогда количество информации можно выразить через вероятности появления
сообщений I=-log
P.
В силу статистической
независимости символов, вероятность сообщения длиной в k
символов равна
Если i-й
символ повторяется в данном сообщении ki
раз,
то
так как при повторении i
символа ki
раз k уменьшается до m.
Из теории вероятностей известно, что, при достаточно длинных сообщениях
(большое число символов k)
ki≈k·pi
и
тогда вероятность сообщений будет равняться
Тогда окончательно
получим
(2)
Данное выражение
называется формулой Шеннона для определения количества информации.
Формула Шеннона для
количества информации на отдельный символ сообщения совпадает с энтропией.
Тогда количество информации сообщения состоящего из k
символов будет равняться I=k·H
Количество информации,
как мера снятой неопределенности
При передаче сообщений,
о какой либо системе происходит уменьшение неопределенности. Если о системе все
известно, то нет смысла посылать сообщение. Количество информации измеряют
уменьшением энтропии.
Количество
информации, приобретаемое при полном выяснении состояния некоторой физической
системы, равно энтропии этой системы:
Количество
информации I
-
есть осредненное значение логарифма вероятности состояния. Тогда каждое
отдельное слагаемое -log
pi
необходимо
рассматривать как частную информацию, получаемую от отдельного сообщения, то
есть
Избыточность
информации
Если бы сообщения
передавались с помощью равновероятных букв алфавита и между собой статистически
независимых, то энтропия таких сообщений была бы максимальной. На самом деле
реальные сообщения строятся из не равновероятных букв алфавита с наличием
статистических связей между буквами. Поэтому энтропия реальных сообщений -Hр,
оказывается много меньше оптимальных сообщений -
Hо. Допустим,
нужно передать сообщение, содержащее количество информации, равное I.
Источнику, обладающему энтропией на букву, равной Hр,
придется затратить некоторое число nр,
то есть
Если энтропия источника
была бы Н0,
то пришлось бы затратить меньше букв на передачу этого же количества информации
I=
n0H0
Таким образом, часть
букв nр-nо
являются как бы лишними, избыточными. Мера удлинения реальных сообщений по
сравнению с оптимально закодированными и представляет собой избыточность D.
(3)
Но наличие избыточности
нельзя рассматривать как признак несовершенства источника сообщений. Наличие
избыточности способствует повышению помехоустойчивости сообщений. Высокая
избыточность естественных языков обеспечивает надежное общение между людьми.
Частотные
характеристики текстовых сообщений
Важными
характеристиками текста являются повторяемость букв, пар букв (биграмм) и
вообще m-ок (m-грамм), сочетаемость букв друг с другом, чередование гласных и
согласных и некоторые другие. Замечательно, что эти характеристики являются
достаточно устойчивыми.
Идея состоит в подсчете
чисел вхождений каждой nm возможных m-грамм в достаточно длинных
открытых текстах T=t1t2…tl, составленных из
букв алфавита {a1, a2, ..., an}. При этом
просматриваются подряд идущие m-граммы текста
t1t2...tm,
t2t3... tm+1, ..., ti-m+1tl-m+2...tl.
Если –
число появлений m-граммы ai1ai2...aim в тексте
T, а L общее число подсчитанных m-грамм, то опыт показывает, что при достаточно
больших L частоты
для данной m-граммы
мало отличаются друг от друга.
В силу этого,
относительную частоту считают приближением вероятности P (ai1ai2...aim)
появления данной m-граммы в случайно выбранном месте текста (такой подход
принят при статистическом определении вероятности).
Для русского языка
частоты (в порядке убывания) знаков алфавита, в котором отождествлены E c Ё, Ь
с Ъ, а также имеется знак пробела (-) между словами, приведены в таблице 1.
информация текстовый сообщение количественный
Таблица 1
- 0.175 |
О 0.090 |
Е, Ё 0.072 |
А 0.062 |
И 0.062 |
Т 0.053 |
Н 0.053 |
С 0.045 |
Р 0.040 |
В 0.038 |
Л 0.035 |
К 0.028 |
М 0.026 |
Д 0.025 |
П 0.023 |
У 0.021 |
Я 0.018 |
Ы 0.016 |
З 0.016 |
Ь, Ъ 0.014 |
Б 0.014 |
Г 0.013 |
Ч 0.012 |
Й 0.010 |
Х 0.009 |
Ж 0.007 |
Ю 0.006 |
Ш 0.006 |
Ц 0.004 |
Щ 0.003 |
Э 0.003 |
Ф 0.002 |
Некоторая разница
значений частот в приводимых в различных источниках таблицах объясняется тем,
что частоты существенно зависят не только от длины текста, но и от его
характера.
Устойчивыми являются
также частотные характеристики биграмм, триграмм и четырехграмм осмысленных
текстов.
ХОД РАБОТЫ
1.
Построил таблицу
распределения частот символов, характерныx
для заданного сообщения путём деления
количества определённого символа в данном сообщении на общее число символов
По
формуле
H= вычислил
энтропию сообщения
2.
Далее
по формуле Шеннона для определения кол-ва информации
вычислил
кол-во информации в передаваемом сообщении
3.
Вычислил
избыточность D по формуле
Другие работы по теме:
Сущность управленческого учёта
Предмет, метод и задачи управленческого учёта (УУ) Сравнительная характеристика финансового и управленческого учёта Информация в системе управленческого учёта
Сущность функции и виды денег
Введение « Деньги заколдовывают людей. Из-за них они мучаются, для них они трудятся. Они придумывают наиболее искусные способы получить их и наиболее искусные способы потратить их. Деньги - единственный товар, который нельзя использовать иначе, кроме как освободиться от них. Они не накормят вас, не оденут, не дадут приюта и не развлекут до тех пор, пока вы не истратите или не инвестируете их.
Бесконечность в философии
Бесконечность в философии-понятие, употребляемое в двух различных смыслах: качественная Бесконечность, выражаемая в законах науки, количественная Бесконечность, выступающая как неограниченность процессов и явлений.
Количественная характеристика здоровья
Данный метод определяет уровень здоровья с помощью балльной системы оценок. В зависимости от величины каждого функционального показателя начисляется определенное количество баллов (от –2 до +7).
Ионизирующее излучение
Экспозиционная доза - это количественная характеристика гамма- и рентгеновского излучения, связанная со способностью излучения ионизировать воздух. (Кл/кг).
«Калтасы Уфа ii»
Качественная характеристика дефектов и их количественная оценка по данным диагностики
Оценка деятельности подразделений управления персоналом
Оценка деятельности подразделений УП - это систематический, чётко организованный процесс, направленный на соизмерение затрат и результатов, связанных с деятельностью кадровых служб, а также на соотнесение этих результатов с итогами деятельности организации в прошлом , с итогами деятельности других организаций.
Трудовая активность
- реализация интеллектуального и физического потенциала рабочей силы в процессе трудовой деятельности. Количественная определенность трудовой активности выражается в достигнутом уровне производительности труда или объеме выполненной работы в единицу времени.
Количественная школа управления 2
Количественная школа управления (с 1950гг – по н. в.) Основная предпосылка возникновения - усложнение процесса управления, что было обусловлено бурным научно - техническим прогрессом послевоенных лет.
Управление рисками проекта
Причиной возникновения рисков являются неопределенности, существующие в каждом проекте. Риски могут быть "известные"- те, которые определены, оценены, для которых возможно планирование. Риски "неизвестные" - те, которые не идентифицированы и не могут быть спрогнозированы.
Задание физического формата вселенной
Расстояние между двумя объектами как бы далеко друг от друга они не находились, может быть выражено посредством отрезка. Применительно к данному аспекту, посредством отрезка состоящего из бесконечного количества точек.
Реализм в искусстве
Реализм-понятие ,характеризующее познавательную функцию искусства: правда жизни, воплощенная специфическими средствами искусства, мера его проникновения в реальность, глубина и полнота её художественного познания. Так, широко понимаемый реализм – основная тенденция исторического развития искусства, присущая различным его видам, стилям, эпохам.
Расовая квота
— противодискриминационная мера, проявляется в принятии законов или нормативных актов влияющих на кадровую политику учреждения, то есть обязывающая учреждение нанимать на работу представителей тех рас или этносов, которые в течение долгого времени подвергались дискриминации в данной стране. В России и Восточной Европе таких законопроектов нет.
Морг мера площади
(от нем. Joch) — устаревшая единица измерения площади земли в средневековой Западной Европе и, в частности, в Речи Посполитой, равная приблизительно 0,56 гектара .
Лан мера площади
— мера площади в средневековой Западной Европе и , в частности , польско-литовском государстве ( XIV-XVIII ст.). Являлся основным мерилом феодальных повинностей .
Миля
Ми́ля (от лат. mille passuum — тысяча двойных римских шагов «тростей») — путевая мера для измерения расстояния, введенная в Риме. Миля применялась в ряде стран в древности, а также во многих современных странах до введения метрической системы мер. В странах с неметрической системой мер миля применяется до настоящего времени.
Ксенеласия
Введение 1 О термине 2 Спартанские ксенеласии Список литературы Введение Ксенеласия (др.-греч. ξενηλασία изгнание иностранцев) — в древней Спарте мера по изгнанию или недопущению на государственную территорию нежелательных чужеземцев.
Четверик единица измерения
Четве́рик — русская единица измерения в 15-20 вв. объёма сыпучих тел (сухой вместимости). В Новгороде Великом известна с XV века, в Российском государстве - с начала XVII века.
Четверть единица объёма
Че́тверть четвертина — русская единица измерения объёма сыпучих тел (1 четверть = 2 осьминам = 8 четверикам = 64 гарнецам = 209,91 л) и жидкостей (1 четверть = 1/4 ведра = 3,08 л).
Имперская экзекуция
Имперская экзекуция (нем. Reichsexekution) — мера принуждения в немецком праве, применявшаяся к членам федерации в обеспечение исполнения их обязанностей по отношению к другим её членам.
Батман единица измерения
Батман — старинная азиатская весовая единица, входившая в Русскую систему мер и использовавшаяся в отдельных местностях Российской империи. Афанасий Никитин в своем «Хождении за три моря» упоминает о батмане. В XVI веке был в употреблении, но в торговой книге он не значится. В XVII веке батман является казенной единицей, но только для местностей, населённых инородцами.
Информационные системы 7
Введение Полезность информации определяется тем, в какой степени она способствует достижению целей системы-получателя. Полезность информации связана с ее количеством и истинностью. Заметим, однако, что истинность не всегда является полезным свойством.
Математическая теория информации
Механизм передачи информации, ее количество и критерии измерения. Единицы информации в зависимости от основания логарифма. Основные свойства и характеристики количества информации, ее энтропия. Определение энтропии, избыточности информационных сообщений.
Количественная мера информации
Лабораторная работа №1 Количественная мера информации ЦЕЛЬ РАБОТЫ: экспериментальное изучение количественных аспектов информации. ЛАБОРАТОРНОЕ ЗАДАНИЕ
Математическая система информации
Курс: "Теория информации и кодирования" Тема: "МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ИНФОРМАЦИИ" 1. КОЛИЧЕСТВО ИНФОРМАЦИИ, И ЕЕ МЕРА На вход системы передачи информации (СПИ) от источника информации подается совокупность сообщений, выбранных из ансамбля сообщений (рис.1).
Понятия и Законы электростатики
IV правовой курс Понятия и Законы электростатики. выполнил: Скородумов Денис Сергеевич г. Донецк 2002 г. Понятия и Законы электростатики. Электризация –
Основные направления теории денег
Доклад на тему: «Основные направления теории денег» Металлическая теория денег. Одной из наиболее ранних теорий денег является металлическая теория денег. Представителями раннего металлизма были английские меркантилисты: Вильям Стаффорд (XVI в.), Томас Мэн (VXII в.) и итальянский меркантилист Галлиани (VXIII в.).
Основные понятия, термины, определения БЖД
Безопасность жизнедеятельности — это область знаний, в которой изучаются опасности, угрожающие человеку, закономерности их проявления и способы защиты от них. В определении существенны три момента : опасность, человек, защита.
Идентификация опасностей
В процессе идентификации выявляется номенклатура опасностей, вероятность их проявления, пространственная локализация (координаты), возможный ущерб и другие параметры, необходимые для решения конкретной задачи.