Язык, как способ представления информации
Часто сообщения формируются из отдельных знаков. Такие сообщения будем называть дискретными. Дискретным сообщениям принадлежит важная роль в процессах обработки информации.
Конечный набор отличных друг от друга знаков, в котором определен порядок, называется алфавитом. Под знаками будем понимать не только буквы и цифры, но и любые отличимые друг от друга объекты. Мощностью алфавита называется количество содержащихся в нем знаков.
Примеры алфавитов: алфавит жестов регулировщика движения, алфавит сигналов светофора, алфавит арабских цифр, алфавит русских букв.
Совокупность правил построения сообщений из знаков некоторого алфавита и правил интерпретации этих сообщений называется языком.
Языки
Разговорные языки
Языки науки
Языки мимики и жестов
Специальные языки (азбука Морзе, азбука Брайля для слепых, языки программирования и др.)
Языки рисунков и чертежей
Языки искусства
Процесс преобразования одного набора знаков в другой набор знаков называется кодированием, а сам результат перевода – кодом. Код характеризуется длиной и структурой. Длиной кода называется количество знаков, которое используется для представления кодируемого символа. Кодирование используется для представления информации в удобной для обработки форме, а иногда – для обеспечения секретности передаваемой информации. В этом случае обычно говорят не «кодирование”, а “шифрование ”.
Кодирование текстовой информации
При кодировании текста для каждого его символа отводится, обычно, по 1 байту. Это позволяет использовать 28=256 различных символов. Соответствие между символом и его кодом, вообще говоря, может быть выбрано совершенно произвольно. Однако на практике необходимо иметь возможность прочесть на одном компьютере текст, созданный на другом. Поэтому таблицы кодировок стараются стандартизовать. Практически все использующиеся сейчас таблицы основаны на "американском стандартном коде обмена информацией" ASCII. Этот стандарт определяет значения для нижней половины кодовой таблицы - первых 127 кодов (32 управляющих кода, основные знаки препинания и арифметические символы, цифры и латинские буквы). В результате, эти символы отображаются верно, какая бы кодировка не использовалась на конкретном компьютере. Хуже обстоит дело с "национальными" символами и "типографскими" знаками препинания. А особенно не повезло языкам, использующим кириллический алфавит (русскому, украинскому, белорусскому, болгарскому и т.д.). Например, для русского языка сейчас широко используются пять таблиц кодировок:
CP866 (DOS-альтернативная)- на PC-совместимых компьютерах при работе с операционными системами DOS и OS/2, а также в любительской международной сети Фидо (Fidonet).
CP1251 (Windows-кодировка) -на PC-совместимых при работе под Windows 3.1 и Windows 95
KOI-8r - самая старая из использующихся до сих пор кодировок. Применяется на компьютерах, работающих под UNIX, является фактическим стандартом для русских текстов в сети Internet.
Macintosh Cyrillic - как видно из названия, предназначена для работы со всеми кириллическими языками на Макинтошах
ISO-8859. Эта кодировка задумывалась как международный стандарт для кириллических текстов, однако на территории России встречается редко.
На самом деле, проблема не столь уж велика. Если мы знаем, как представлен исходный текст и какая таблица используется нашим компьютером, преобразование выполнить очень легко - нужно просто поменять одни коды на другие (по таблице перекодировки). Для этого служат специальные программы - текстовые конверторы.
Примеры различных кодировок
«Квадрат Полибия»
|
1
|
2
|
3
|
4
|
5
|
1
|
A
|
B
|
C
|
D
|
E
|
2
|
F
|
G
|
H
|
I J
|
K
|
3
|
L
|
M
|
N
|
O
|
P
|
4
|
Q
|
R
|
S
|
T
|
U
|
5
|
V
|
W
|
X
|
Y
|
Z
|
«Аналог квадрата Полибия»
|
1
|
2
|
3
|
4
|
5
|
1
|
А
|
Б
|
В
|
Г
|
Д
|
2
|
Е
|
Ж
|
З
|
И
|
К
|
3
|
Л
|
М
|
Н
|
О
|
П
|
4
|
Р
|
С
|
Т
|
У
|
Ф
|
5
|
Х
|
Ц
|
Ч
|
Ш
|
Щ
|
6
|
Ь
|
Ы
|
Э
|
Ю
|
Я
|
Каждой букве ставится в соответствие двузначное число, таким образом, что на первом месте стоит номер строки, на втором – номер столбца.
«Код Цезаря»
А
|
Б
|
В
|
Г
|
Д
|
Е
|
Ё
|
Ж
|
З
|
И
|
К
|
Л
|
М
|
Н
|
О
|
П
|
Э
|
Ю
|
Я
|
А
|
Б
|
В
|
Г
|
Д
|
Е
|
Ё
|
Ж
|
З
|
И
|
К
|
Л
|
М
|
Р
|
С
|
Т
|
У
|
Ф
|
Х
|
Ц
|
Ч
|
Ш
|
Щ
|
Ъ
|
Ы
|
Ь
|
Э
|
Ю
|
Я
|
Н
|
О
|
П
|
Р
|
С
|
Т
|
У
|
Ф
|
Х
|
Ц
|
Ч
|
Ш
|
Щ
|
Ъ
|
Ы
|
Ь
|
Код построен таким образом, что каждой букве из верхнего ряда ставится в соответствие буква из нижнего ряда, который получен сдвигом алфавита на три буквы (можно преобразовать код сдвигом на любое количество букв)
«Тарабарская грамота»
Б
|
В
|
Г
|
Д
|
Ж
|
З
|
К
|
Л
|
М
|
Н
|
Щ
|
Ш
|
Ч
|
Ц
|
Х
|
Ф
|
Т
|
С
|
Р
|
П
|
Код построен таким образом, что гласные буквы остаются в словах на своих местах, а согласные заменяются по правилу: ищем букву в верхней (нижней) строке и заменяем её на соответствующую букву из нижней (верхней) строки.
«Геометрический шифр»
АБ
|
ВГ
|
ДЕ
|
ЁЖ
|
ЗИ
|
ЙК
|
ЛМ
|
НО
|
ПР
|
Код основан на том, что каждой букве ставится в соответствие фигура, в которой она расположена, и фигура с точкой, если эта буква стоит на втором месте.
Пример:
Д - , Е -
С - , Т -
Практическая работа №1
Практическая работа №2
|