О кодировках и кодовых страницах
Вряд ли это сейчас сильно актуально, но может кому-то покажется интересным (или просто вспомнит былые годы).
Начну с небольшого экскурса в историю компьютера. Поскольку компьютер использовался для обработки информации, то он просто обязан представлять эту информацию в «человеческом» виде. Компьютер хранит информацию в виде чисел (байтов), а человек воспринимает символы (буквы, цифры, различные знаки). Значит, надо сделать сопоставление число символ и задача будет решена. Сначала посчитаем, сколько символов нам надо (не забудем, что «мы» — американцы, использующие латинский алфавит). Нам надо 10 цифр + 26 заглавных букв английского алфавита + 26 строчных букв + математические знаки (хотя бы +-/*=> <%) + знаки препинания (. ;’” ) + различные скобки + служебные символы (_^%$@|) + 32 непечатных управляющих символов для работы с устройствами (в первую очередь, с телетайпом). В общем, 128 символов хватает «впритык» и этот стандартный набор символов «мы» назвали ASCII, т.е. «American Standard Code for Information Interchange» Отлично, для 128 символов достаточно 7 бит. С другой стороны, в байте 8 бит и каналы связи 8-битные (забудем про «доисторические» времена, когда в байте и каналах бит было меньше). По 8-ми битному каналу будем передавать 7 бит кода символа и 1 бит контрольный (для повышения надежности и распознавания ошибок). И все было замечательно, пока компьютеры не стали использоваться в других странах (где латиница содержит больше 26 символов или вообще используется не латинский алфавит). Вместо того, чтобы всем поголовно освоить английский, жители СССР, Франции, Германии, Грузии и десятков других стран захотели, чтобы компьютер общался с ними на их родном языке. Пути были разные (в зависимости от остроты проблемы): одно дело, если к 26 символам латиницы надо добавить 2-3 национальных символа (можно пожертвовать какими-то специальными) и другое дело, когда надо «вклинить» кириллицу. Теперь «мы» — русские, стремящиеся «русифицировать» технику. Первыми были решения на основе замены строчных английских букв прописными русскими. Однако проблема в том, что русских букв (33) и они не влезают на 26 мест. Надо «уплотнить» и первой жертвой этого уплотнения пала буква Ё (еe просто повсеместно заменили на Е). Другой прием – вместо «русских» A,E,K,M,H,O,P,C,T стали использовать похожие английские (таких букв даже больше чем надо, но в некоторых парах прописные похожие, а строчные — не очень: Hh Tt Bb Kk Mm). Но все же «вклинили » и в результате весь вывод шел ПРОПИСНЫМИ БУКВАМИ, что неудобно и некрасиво, однако со временем привыкли. Второй прием – «переключение языка». Код русского символа совпадал с кодом английского символа, но устройство помнило, что сейчас оно в русском режиме и выводило символ кириллицы (а в английском режиме – латиницы). Режим переключался двумя служебными символами: Shift Out (SO, код 14) на русский и Shift IN (SI, код 15) на английский (интересно, что когда-то в печатных машинках использовалась двухцветная лента и SO приводил к физическому подъему ленты и в результате печать шла красным, а SI ставил ленту на место и печать снова шла черным). Текст с большими и маленькими буквами стал выглядеть вполне прилично. Все эти варианты более-менее работали на больших компьютерах, но после выпуска IBM PC началось массовое распространение персональных компьютеров по всему миру и надо было что-то решать централизовано.
Решением стала разработанная фирмой IBM технология кодовых страниц. К этому времени «контрольный символ» при передаче потерял свою актуальность и все 8-бит можно было использовать для кода символа. Вместо диапазона кодов 0-127 стал доступен диапазон 0-255. Кодовая страница (или кодировка)– это сопоставление кода из диапазона 0-255 некоему графическому образу (например, букве «Я» кириллицы или букве «омега» греческого). Нельзя сказать «символ с кодом 211 выглядит так», но можно сказать «символ с кодом 211 в кодовой странице CP1251 выглядит так: У, а в CP1253(греческая) выглядит так: Σ ». Во всех (или почти всех) кодовых таблица первые 128 кодов соответствуют таблице ASCII, только для первых 32 непечатных кодов IBM «назначила» свои картинки (которые показывается при выводе на экран монитора). В верхней части IBM разместила символы псевдографики (для рисования различных рамок), дополнительные символы латиницы, используемые в странах Западной Европы, некоторые математические символы и отдельные символы греческого алфавита. Эта кодовая страница получила название CP437 (IBM разработала и множество других кодовых страниц) и по умолчанию использовалась в видеоадаптерах. Кроме того, различные центры стандартизации (мировые и национальные) создали кодовые страницы для отображения национальных символов. Наши компьютерные «умы» предложили 2 варианта: основная кодировка ДОС и альтернативная кодировка ДОС. Основная предназначалась для работы везде, а альтернативная — в особых случаях, когда использование основной неудобно. Оказалось, что таких особых случаев большинство и основной (не по названию, а по использованию) стала именно «альтернативная» кодировка. Думаю, такой исход был ясен с самого начала для большинства специалистов (кроме «ученых мужей», оторванных от жизни). Дело в том, что в большинстве случаев использовались английские программы, которые «для красоты» активно использовали псевдографику для рисования различных рамок и тп. Типичные пример — суперпопулярный Нортон коммандер, стоящий тогда на большинстве компьютеров. Основная кодировка на местах псевдографики разместила русские символы и панели нортона выглядели просто ужасно (равно как и любой другой псевдографический вывод). А альтернативная кодировка бережно сохранила символы пседографики, использую для русских букв другие места. В результате и с Нортон коммандером и с другими программами вполне можно было работать. Андрей Чернов (широко известная личность в то время) разработал кодировку KOI8-R (КОИ8), пришедшую с «больших» компьютеров, где господствовал UNIX. Ее особенностью было то, что если у русского символа пропадал 8-й бит, то получившийся в результате «обрезания» английский символ будет созвучен исходному русскому. И вместо «Привет» получался «pRIVET», что не совсем то, но хотя бы читаемо. В результате в СССР на компьютерах использовали 3 различных кодовых страницы (основную, альтернативную и KOI8). И это не считая различных «вариаций», когда в альтернативной кодировке, скажем, отдельные символы (а то и строки) изменялись. От KOI8 тоже «отпочковывались» варианты — украинский, белорусский, таджикский, кавказский и др. Оборудование (принтеры, видеодаптеры) тоже надо было настраивать (или «прошивать») для работы со своими кодировками. Коммерсанты могли привезти дешевую партию принтеров (из эмиратов, например, по бартеру) а они не работали с русскими кодировками.
Тем не менее в целом кодовые страницы позволили решить проблему вывода национальных символов (устройство просто должно уметь работать с соответствующей кодовой страницей), но породили проблему множественности кодировок, когда почтовая программа отправляет данные в одной кодировке, а принимающая программа показывает их в другой. В результате пользователь видит так называемые «кракозябры» (вместо «привет» написано «ЏаЁўҐв» или «оПХБЕР»). Потребовались программы-перекодировщики, переводящие данные из одной кодировки в другую. Увы, порой письма при прохождении через почтовые серверы неоднократно автоматически перекодировались (или даже «обрезался» 8-й бит) и нужно было найти и выполнить всю цепочку обратных преобразований.
После массового перехода на Windows к трем кодовым страницам добавилась четвертая (Windows-1251 она же CP1251 она же ANSI ) и пятая (CP866 она же OEM или DOS). Не удивляйтесь — Windows для работы с кириллицей в консоли по-умолчанию использует кодировку CP866 (русские символы такие же как в «альтернативной кодировке», только некоторые спецсимволы отличаются), для других целей — кодировку CP1251. Почему Windows понадобилось две кодировки, неужели нельзя было обойтись одной? Увы, не получается: DOS-кодировка используется в именах файлов (тяжелое наследие DOS) и консольные команды типа dir, copy должны правильно показывать и правильно обрабатывать досовские имена файлов. С другой стороны, в этой кодировке много кодов отведено символам псевдографики (различным рамкам и т.п.), а Windows работает в графическом режиме и ей (а точнее, windows-приложениям) не нужны символы псевдографики (но нужны занятые ими коды, которые в CP1251 использованы для других полезных символов). Пять кириллических кодировок поначалу еще больше усугубили ситуацию, но со временем наиболее популярными стали Windows-1251 и KOI8, а досовскими просто стали меньше пользоваться. Еще при использовании Windows стало неважно, какая кодировка в видеоадаптере (только изредка, до загрузки Windows в диагностических сообщениях можно видеть «кракозябры»).
Решение проблемы кодировок пришло, когда повсеместно стала внедряться система Unicode (и для персональных ОС и для серверов). Unicode каждому национальному символу ставит в соответствие раз и навсегда закрепленное за ним 20-ти битовое число («точку» в кодовом пространстве Unicode, причем чаще всего хватает 16 бит, поскольку 20-битные коды используются для редких символов и иероглифов), поэтому нет необходимости перекодировать (подробнее об Unicode см следующую запись в журнале). Теперь для любой пары + можно определить соответствующий ей код в Unicode (сейчас в кодовых страницах для каждого 8-битного кода показывается 16-битный код Unicode) и потом при необходимости вывести этот символ для любой кодовой страницы, где он присутствует. В настоящее время проблема кодировок и перекодировок для пользователей практически исчезла, но все же изредка приходят письма, где либо тема письма либо содержание «не в той» кодировке.
Интересно, что примерно год назад проблема кодировок ненадолго всплыла при «наезде» ФАС на сотовых операторов, мол те дискриминируют русскоязычных пользователей, поскольку за передачу кириллицы берут больше. Это объясняется техническим решением, выбранным разработчиком протокола SMS связи. Если бы его россияне разработали, они бы, возможно, отдали приоритет кириллице. В указанной статье «начальник управления контроля транспорта и связи Дмитрий Рутенберг отметил, что существуют и восьмибитные кодировки для кириллицы, которые могли бы использовать операторы.» Во как — на улице 21-й век, Unicode шагает по миру, а господин Рутенберг тянет нас в начало 90-х, когда шла «война кодировок» и проблема перекодировок стояла во весь рост. Интересно, в какой кодировке должен получить СМС Вася Пупкин, пользующийся финским телефоном, находящийся в Турции на отдыхе, от жены с корейским телефоном, отправляющей СМС из Казахстана? А от своего французского компаньона (с японским телефоном), находящегося в Испании? Думаю, никакой начальник ответа на этот вопрос дать не сможет. К счастью, это «экономное» предложение не воплотилось в жизнь.
Юный читатель может спросить — а что помешало сразу использовать Unicode, зачем были придуманы эти заморочки с кодовыми страницами? Думаю, дело в финансовой стороне проблемы. Unicode требует в 2 раза больше памяти, а память стоит денег (и дисковая и ОЗУ). Стал бы американец покупать компьютер на 1-2 тыс дороже из-за того, что «теперь новая ОС требует больше памяти, но позволяет без проблем работать с русским, европейскими, арабскими языками»? Боюсь, простой англоязычный покупатель воспринял бы такой аргумент «неадекватно» (и обратился бы к другим производителям).
- кодировки
- кодовые страницы
Что такое псевдографика и зачем она использовалась?
Пожалуйста, войдите или зарегистрируйтесь для публикации ответа на этот вопрос.
решение вопроса
Связанных вопросов не найдено
Обучайтесь и развивайтесь всесторонне вместе с нами, делитесь знаниями и накопленным опытом, расширяйте границы знаний и ваших умений.
поделиться знаниями или
запомнить страничку
- Все категории
- экономические 43,679
- гуманитарные 33,657
- юридические 17,917
- школьный раздел 612,624
- разное 16,911
Популярное на сайте:
Как быстро выучить стихотворение наизусть? Запоминание стихов является стандартным заданием во многих школах.
Как научится читать по диагонали? Скорость чтения зависит от скорости восприятия каждого отдельного слова в тексте.
Как быстро и эффективно исправить почерк? Люди часто предполагают, что каллиграфия и почерк являются синонимами, но это не так.
Как научится говорить грамотно и правильно? Общение на хорошем, уверенном и естественном русском языке является достижимой целью.
- Обратная связь
- Правила сайта
Значение слова «псевдографика»
- Псевдогра́фика, псевдографические символы — совокупность символов, включенных в набор символов компьютерного шрифта, отображающих графические примитивы (линии, прямоугольники, треугольники, кресты, различная заливка и т. п.). Псевдографические символы реализуются в рамках формата шрифта (к примеру, матрица 8×12 точек) и дополняют в таком наборе цифро-буквенные и служебные символы.
Основное назначение псевдографики — графическое оформление программ с текстовым интерфейсом пользователя (в том числе и т. н. консольных) — отображение в них окон, меню, кнопок и прочих элементов интерфейса, создания рамок и таблиц. Первоначальная цель применения — изображение рамок и таблиц на текстовых терминалах. Псевдографика также зачастую используется там, где передача, хранение и визуализация графики непосредственно невозможна или затруднена: телетайпы, текстовые терминалы, СМС и т. п.
В системах с графическим интерфейсом псевдографика практически не используется, поскольку там есть возможность отрисовывать те же графические элементы с более высоким качеством, используя встроенные графические средства системы (скажем, GDI). Кроме того, возможность рисовать рамки псевдографикой ограничена — аккуратно это можно делать только используя шрифты фиксированной ширины.
Другой вид псевдографики используется, когда недоступны и псевдографические символы. В этом случае используются доступные и визуально схожие с псевдографикой символы: !, I, O, -, =, +, и т. п. Поэтому псевдографикой можно считать и широко применяющиеся при виртуальном общении составленные из нескольких цифро-буквенных символов комбинации — смайлики (впрочем, непосредственное вхождение их в состав некоторых наборов символов (к примеру, Юникод) позволяет им считаться полноценными псевдографическими символами).
Что такое псевдографика и зачем она использовалась
Группа: Пользователи
Сообщений: 6 823
Пол: Мужской
Реальное имя: Лопáрь (Андрей)
Репутация: 159
Псевдографика — это рисование линий (только горизонтальных и вертикальных) в текстовой моде посредством специальных символов. Во времена DOS эта возможность выглядела крайне привлекательно. Символы псевдографики размещаются во второй половине кодов ASCII, причем в в некоторых национальных кодировках они конфликтуют с буквами национального алфавита, что нехорошо. В кодировке 866 (которая в основном и использовалась в DOS) с этим все в порядке, и есть возможность и рисовать рамочки и таблицы, и писать по-русски.
Основная особенность, которая делает всю эту кухню сложной для «ручного» применения — это сопряжение линий на поворотах и пересечениях (что делается подставлением на пересечение специального символа). Линии бывают одинарные и двойные — это добваляет шарму, но немало усложняет ситуацию. Код, в котором вручную набраны рамки (скажем, на титульном листе) выглядит крайне громоздко и непритязательно. А слегка подправить текст в рамке — занятие не для слабонервных.. )) В предствленном модуле эта задача решена — линии сопрягаются между собой автоматически.
Символы псевдографики в кодировке 866 простираются от 176 до 222 номера:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
176: ░ ▒ ▓ │ ┤ ╡ ╢ ╖ ╕ ╣ ║ ╗ ╝ ╜ ╛ ┐ └
192: └ ┴ ┬ ├ ─ ┼ ╞ ╟ ╚ ╔ ╩ ╦ ╠ ═ ╬ ╧ ╨
208: ╨ ╤ ╥ ╙ ╘ ╒ ╓ ╫ ╪ ┘ ┌ █ ▄ ▌ ▐ ▀ р
var
i,j: integer;
begin
Write(' ');
for i:=0 to 16 do Write(i:3);
WriteLn;
WriteLn;
for i:=11 to 13 do begin
Write(i*16:4,': ');
for j:=0 to 16 do Write(Chr(i*16+j),' ');
WriteLn;
WriteLn
end
end.
При внимательном взгляде на этот набор символов вы обнаружите, что он обладает как некоторой полнотой, так и ограничениями. Например, во всей полноте представлены символы перехода с одинарной на двойную линию при поворотах. Но при этом совершенно отсутствуют переходы на прямых участках (даже на пересечениях — и это совершенно оправдано, если вникнуть.
Короче говоря, возможность рисовать талицы/рамочки в тексте была и есть, но если раньше она была весьма и весьма востребована (скажем, все менюшки в тексте делались с ее помощью), то сейчас про нее мало кто и помнит. Но время от времени все же всплывает.. Например, недавно проскочила тема про судоку, в которой автор пытался рисовать доску именно псевдографикой. Она и побудила меня полезть в архивы и вытащить на свет мой юнит аж 1993 г (!!)).. Его, конечно, пришлось несколько переделать (в оригинале использовался прямой доступ к видеопамяти) и урезать (многое было нужно только для меню), но основная функциональность сохранена.
Этот модуль использует CRT, и это его основной минус. CRT не предоставляет функциональности чтения видеопамяти, и приходится заводить промежуточный массив. Размер этого массива задан константами и может быть изменен при компиляции (у меня он задан с приличным запасом).
В модуле только четыре процедуры:
— рисование горизонтальной линии;
— рисование вертикальной линии;
— рисование прямоугольника;
— очистка промежуточного массива.
Пояснения.. При пересечении или касании, а также близком расположении линии взаимодействуют между собой. Нужно хорошо понимать, как именно это происходит, чтобы добиться нужного результата. Нарисованная линия остается в промежуточном массиве до тех пор, пока он не будет очищен. Все линии, проведенные после нее (но до очистки буфера) и пересекающие или касающиеся ее будут по возможности сопряжены с ней. Простой пример показывает, что я имею в виду:
uses
TxGraph;
const
n= 8;
var
i: integer;
begin
for i:=1 to n do begin
TxRectangle(
Random(80)+1,Random(25)+1,Random(80)+1,Random(25)+1,
Random(2)+1,Random(2)+1,Random(2)+1,Random(2)+1
);
// TxDump
end
end.
Тут мы видим просто набор прямоугольников — некоторые «внизу», другие «поверх» них. Этот пример поясняет, зачем и как следует вызывать очистку буфера.
И последнее. Этот юнит, как я уже сказал, вряд ли представляет какую-либо практическую ценность. Но он может служить демонстрацией подхода к организации того, что кажется на первый взгляд неорганизуемым )).
< рисование в текстовой моде символами псевдографики
drawing with pseudo-graphic characters in text mode
by Lapp
forum.pascal.net.ru, FAQ
v.1.0 >
unit TxGraph;
interface
procedure TxHorLine(x1,x2,y,w: integer);
procedure TxVerLine(y1,y2,x,w: integer);
procedure TxRectangle(x1,y1,x2,y2,wr,wu,wl,wd: integer);
procedure TxDump;
implementation
uses
CRT;
const
mx= 300;
my= 200;
TxGrEl: array [
0..2, // r
0..2, // u
0..2, // l
0..2 // d
] of char = (
( // r=0
( // u=0
(' ','│','║'), // l=0
('─','┐','╖'), // l=1
('═','╕','╗') // l=2
),
( // u=1
('│','│','*'), // l=0
('┘','┤','*'), // l=1
('╛','╡','*') // l=2
),
( // u=2
('║','*','║'), // l=0
('╜','*','╢'), // l=1
('╝','*','╣') // l=2
)
),
( // r=1
( // u=0
('─','┌','╓'), // l=0
('─','┬','╥'), // l=1
('*','*','*') // l=2
),
( // u=1
('└','├','*'), // l=0
('┴','┼','*'), // l=1
('*','*','*') // l=2
),
( // u=2
('╙','*','╟'), // l=0
('╨','*','╫'), // l=1
('*','*','*') // l=2
)
),
( // r=2
( // u=0
('═','╒','╔'), // l=0
('*','*','*'), // l=1
('═','╤','╦') // l=2
),
( // u=1
('╘','╞','*'), // l=0
('*','*','*'), // l=1
('╧','╪','*') // l=2
),
( // u=2
('╚','*','╠'), // l=0
('*','*','*'), // l=1
('╩','*','╬') // l=2
)
)
);
var
TxGrA: array [0..mx,0..my] of byte;
procedure Order(var a,b: integer);
begin
if a a:= a xor b;
b:= a xor b;
a:= a xor b
end;
procedure TxHorLine(x1,x2,y,w: integer);
var
i: integer;
begin
Order(x1,x2);
for i:=x1 to x2 do TxGrA[i,y]:= w;
for i:=x1 to x2 do begin
GoToXY(i,y);
Write(TxGrEl[TxGrA[i+1,y],TxGrA[i,y-1],TxGrA[i-1,y],TxGrA[i,y+1]])
end
end;
procedure TxVerLine(y1,y2,x,w: integer);
var
i: integer;
begin
Order(y1,y2);
for i:=y1 to y2 do TxGrA[x,i]:= w;
for i:=y1 to y2 do begin
GoToXY(x,i);
Write(TxGrEl[TxGrA[x+1,i],TxGrA[x,i-1],TxGrA[x-1,i],TxGrA[x,i+1]])
end
end;
procedure TxDump;
begin
FillChar(TxGrA,SizeOf(TxGrA),0)
end;
procedure TxRectangle(x1,y1,x2,y2,wr,wu,wl,wd: integer);
begin
Order(x1,x2);
Order(y1,y2);
TxVerLine(y1,y2,x2,wr);
TxHorLine(x1,x2,y1,wu);
TxVerLine(y1,y2,x1,wl);
TxHorLine(x1,x2,y2,wd)
end;
begin
TxDump
end.
Сообщение отредактировано: OCTAGRAM — 28.04.2014 23:41