1.1 Представление информации в компьютере
Числовая форма. Как говорилось выше, компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (звуки, изображения, показание приборов и т.д.) для обработки на компьютере должна быть преобразована в числовую форму. Скажем, чтобы перевести цифровую форму звук, можно через небольшие промежутки времени измерять интенсивность звука, представляя результаты каждого измерения в числовой форме. С помощью программ для компьютера можно выполнить преобразования полученной информации, например «наложить» друг на друга звуки от разных источников. После этого результата можно преобразовать обратно в звуковую форму.
Кодировки символов. Для обработки на компьютере текстовой информации обычно при вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешнее устройство (экран или печать) для восприятия человеком по этим числам строятся соответствующие изображения букв. Соответствие между набором букв и числами называется кодировкой символов.
Двоичная система счисления. Как правило, все числа внутри компьютера представляются с помощью нулей и единиц, а не десяти цифр, как это привычно для людей. Иными словами, компьютеры обычно работают в двойничной системе счисления, поскольку при этом их устройства получаются значительно более простым. Ввод чисел в компьютер и вывод их для чтения человеком может осуществляться привычным для людей десятичной форме – все необходимые преобразования могут выполнить программы, работающие на компьютере.
Биты и байты. Единицей информации в компьютере является один бит, т.е. двоичный разряд, который может принимать значения ноль или один. Как правило, команды компьютеров работают не с отдельными битами, а восемью битами сразу. Восемь последовательных битов составляют байт. В одном байте можно закодировать значение одного символа из 256 возможных (256 = ). Более крупными единицами информации являются килобайт (сокращенно обозначаемый Кбайт), равный 1024 байтам (1024=2), мегабайт (сокращенно обозначаемый Мбайт), равный 1024 Кбайтам и гигабайт (Гбайт), равный 1023 Мбайтам. Для ориентировки скажем, что если на странице текста помещается в среднем 2500 знаков, то один Мбайт – это примерно 400 страниц, а 1 Гбайт – 400 тыс. страниц терабайт.
Посмотрите ролик по информации
Свойства информации. Единицы измерения информации.
Важнейшие свойства информации: полнота, достоверность, ценность, актуальность и ясность. С информацией в компьютере производятся следующие операции: ввод, вывод, создание, запись, хранение, накопление, изменение, преобразование, анализ, обработка. Информация передается с помощью языков. Основа любого языка - алфавит, т.е. конечный набор знаков (символов) любой природы, из которых конструируются сообщения на данном языке. Алфавит может быть латинский, русский, десятичных чисел, двоичный и т.д. Кодирование - это представление символов одного алфавита символами другого. Простейшим алфавитом, достаточным для кодирования любого другого, является двоичный алфавит, состоящий всего из двух символов 0 и 1. Система счисления - это способ представления любого числа с помощью алфавита символов, называемых цифрами. Системы счисления делятся на позиционные и непозиционные. В позиционных системах любое число записывается в виде последовательности цифр, количественное значение которых зависит от места (позиции), занимаемой каждой из них в числе. Примеры: десятичная, восьмеричная, двоичная система и т.д. Схема перевода из двоичной системы в десятичную:
(100011)2 = 1*25 + 0*24 + 0*23 + 0*22 + 1*21 + 1*20 = (35)10
Пример непозиционной системы счисления - римская система. Информация в вычислительной машине представляется в двоичном коде (0 и 1), (да, нет), (вкл., выкл.). 0 и 1 - это 1 бит информации или 1 двоичный разряд. 1 байт - это 8 бит (8 двоичных разрядов). В компьютере 1 байт является наименьшей единицей информации, что соответствует одному знаку в командной строке (цифре, букве, специальному символу или пробелу).
1 Кбит = 1024 бит = 210 бит =~ 1000 бит (1 килобит).
1 Мбит = 1048576 бит = 220 бит =~ 1 000 000 бит (1 мегабит).
1 Гбит = 230 бит =~ 109 бит = 1 000 000 000 (1 гигабит).
В компьютерах IBM PC используются следующие единицы измерения информации: 1 б (1 байт), 1 Кб (1 килобайт или часто просто 1 К), 1 Мб (1 мегабайт или часто просто 1 М), 1 Гб (1 гигабайт). Между ними существуют следующие соотношения:
1 Кб = 210 б = 1024 б =~ 1000 б.
1 Мб = 220 б = 1024 Кб = 1048576 б =~ 1 000 000 б.
1 Гб = 230 б = 1024 Мб =~ 109 б = 1 000 000 000 б.
Для примера можно указать, что в среднем 1 страница учебника =~ 3Кб.
Газета из 4-х страниц =~ 150 Кб.
Большая Советская Энциклопедия =~ 120 Мб.
Цветной телефильм продолжительностью 1.5 часа (25 кадр/с) =~ 135Гб.
Двоичное кодирование текста, изображения и звука.
Компьютер может обрабатывать числовую, текстовую, графическую видео- и звуковую информацию. Возникает вопрос: «Как, каким образом процессор обрабатывает столь различающиеся по восприятию человеком виды информации?»
Все эти виды информации кодируются в последовательности электрических импульсов: есть импульс (1), нет импульса (0), т. е. в последовательности нулей и единиц. Такое кодирование информации в компьютере называется двоичным кодированием, а логические последовательности нулей и единиц — машинным языком.
Двоичный код
Вид информации |
Числовая
|
Текстовая
|
Графическая
|
Звуковая
|
Видео
|
Двоичное кодирование текстовой информации Начиная с конца 60-х годов компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время большая часть персональных компьютеров в мире значительную часть времени занято обработкой именно ТЕКСТОВОЙ информации.
Для представления текстовой информации обычно используется 256 различных символов (прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т. д.). Поставим вопрос: «Какое количество бит информации или двоичных разрядов необходимо, чтобы закодировать 256 различных символов?»
256 различных символов можно рассматривать как 256 различных состояний (событий). В соответствии с вероятностным подходом к измерению количества информации необходимое количество информации для двоичного кодирования 256 символов равно;
I = log2 256 = 8 бит = 1 байт
Следовательно, для двоичного кодирования 1 символа необходим 1 байт информации или 8 двоичных разрядов. Таким образом, каждому символу соответствует своя уникальная последовательность из восьми нулей и единиц.
Присвоение символу конкретного двоичного кода — это вопрос соглашения, которое фиксируется в кодовой таблице. К сожалению, существуют пять различных кодировок русских букв, поэтому тексты — созданные в одной кодировке, не будут правильно отображаться в другой.
Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применяется на компьютерах с операционной системой UNIX.
Наиболее распространенная кодировка — это стандартная кириллическая кодировка Microsoft Windows, обозначаемая сокращением СР1251 («СР» означает «Code Page», «кодовая страница»). Все Windows-приложения, работающие с русским языком, поддерживают эту кодировку.
28 = 256 символов
Двоичный код |
KOH8
|
CP1251
|
CP866
|
Mac
|
ISO
|
00000000
|
|
|
|
|
|
00000001
|
|
|
|
|
|
.............
|
|
|
|
|
|
11100100
|
Д
|
Д
|
Ф
|
Д
|
Ф
|
11100101
|
E
|
e
|
x
|
e
|
x
|
.............
|
|
|
|
|
|
11111111
|
|
|
|
|
|
Для работы в среде операционной системы MS DOS используется «альтернативная» кодировка, в терминологии фирмы Microsoft — кодировка CP866.
Фирма Apple разработала для компьютеров Macintosh свою собственную кодировку русских букв (Мае).
Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.
Наконец, появился новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а целых 65 536. Эту кодировку поддерживает пакет Microsoft Office 97-2003.
Двоичное кодирование текста происходит следующим образом: при нажатии на определенную клавишу в компьютер передается определенная последовательность электрических импульсов, причем каждому символу соответствует своя последовательность электрических импульсов (нулей и единиц на машинном языке). Программа драйвер клавиатуры и экрана по кодовой таблице определяет символ и создает его изображение на экране.
Таким образом, тексты хранятся в памяти компьютера в двоичном коде и программным способом преобразуются в изображения на экране.
Двоичное кодирование графической информации
С 80-х годов бурно развивается технология обработки на компьютере ГРАФИЧЕСКОЙ информации. Компьютерная графика широко используется в компьютерном моделировании в научных исследованиях, компьютерных тренажерах, компьютерной анимации, деловой графике, играх и т. д.
В последние годы, в связи с резким ростом аппаратных возможностей персональных компьютеров, пользователи получили возможность обрабатывать ВИДЕО информацию.
Графическая информация на экране дисплея представляется в виде изображения. Которое формируется из точек (пикселей). В современных компьютерах разрешающая способность (количество точек на экране дисплея), а также количество цветов зависит от видеоадаптера и может меняться программно.
Цветные изображения могут иметь различные режимы: 16 цветов, 256 цветов, 65 536 цветов (high color), 16 777 216 цветов (true color). Каждый цвет представляет собой одно из вероятных состояний точки экрана. Рассчитаем количество бит на точку, необходимых для режима true color: I = logs 65 536-16 бит = 2 байт.
Наиболее распространенной разрешающей способностью экрана является разрешение 800 на 600 точек, т.е. 480000 точек. Рассчитаем необходимый для режима true color объем видеопамяти: 1 = 2 байт 480 000 = 960 000 байт = 937,5 Кб. Аналогично рассчитывается объем видеопамяти, необходимый для хранения битовой карты изображений при других видеорежимах.
Разрешение |
16 цветов
|
256 цветов
|
65536 цветов
|
16 777 216 цветов
|
640х480
|
150Кб
|
300 Кб
|
600Кб
|
900Кб
|
800х600
|
234,4Кб
|
468,8 Кб
|
937,5Кб
|
1,4Мб
|
1024х768
|
384 Кб
|
768Кб
|
1,5Мб
|
2,25 Мб
|
1280 x 1024
|
640Кб
|
1,25Мб
|
2,5Мб
|
3,75 Мб
|
В видеопамяти памяти компьютера хранится битовая карта, являющаяся двоичным кодом изображения, отсюда она считывается процессором (не реже 50 раз в секунду) и отображается на экран. Двоичное кодирование звуковой информации. Сначала 90-х годов персональные компьютеры получили возможность работать со ЗВУКОВОЙ информацией. Каждый компьютер, имеющий звуковую плату, может сохранять в виде файлов и воспроизводить звуковую информацию. С помощью специальных программных средств (редакторов аудиофайлов) открываются широкие возможности по созданию, редактированию и прослушиванию звуковых файлов. Создаются программы распознавания речи, и появляется возможность управления компьютером голосом.
При двоичном кодировании аналогового звукового сигнала непрерывный сигнал дискретизируется, т. е. заменяется серией его отдельных выборок — отсчетов. Качество двоичного кодирования зависит от двух параметров: количества распознаваемых дискретных уровней сигнала и количества выборок в секунду.
Различные звуковые карты могут обеспечить 8-или 16-битные выборки.
Замена непрерывного звукового сигнала его дискретным представлением в виде ступенек
8-битные карты позволяют закодировать 256 различных уровней дискретизации звукового сигнала, соответственно 16-битные — 65 536 уровней.
Частота дискретизации аналогового звукового сигнала (количество выборок в секунду) может принимать следующие значения: 5,5 КГц, 11 КГц, 22 КГц и 44 КГц. Таким образом, качество звука в дискретной форме может быть очень плохим (качество радиотрансляции) при 8 битах и 5,5 КГц и очень высоким (качество аудиоCD) при 16 битах и 44 КГц.
Можно оценить объем моноаудиофайла длительностью звучания 1 сек при среднем качестве звука (16 бит, 22 КГц). Это означает, что 16 бит на одну выборку необходимо умножить на 22 000 выборок в секунду, получим 43 Кб.
|