guide
<dimas>
help

On-line учебник HTML с примерами,
справочник по созданию Web-сайтов.

guide
<dimas>
help

Главная Учебник HTML Учебник CSS Web- mastering
Раскрутка Полезности FAQ Е- mailer
Взять banner bookmark Контакты Отослать ссылку



Учебник HTML >>Языковые стандарты

Кодирование символов

Все символьные обозначения букв, цифр, специальных знаков и иероглифов на самом деле представляют собой битовые комбинации - различные сочетания битов. Так, например, из 8 битов, в различных комбинациях, теоретически может получиться 256 последовательностей, в свою очередь каждой из этих последовательностей присвоен символ, другими словами из 8 битов может получиться 256 символов. Каждому такому символу присваивается свой код и из них составляется таблица - кодировка символов. Соответственно таких таблиц может быть как минимум по одной на каждый из земных языков. На самом деле их гораздо больше, чем это нужно, все они были созданы в разное время, для различных платформ, и кодируются они не только при помощи 8 битов, но и 16 и даже 32.

Самым популярным из стандартов кодирования символов, в настоящий момент является стандарт ISO 646, созданный международной организацией стандартизации ISO, а точнее его первые 128 символов, которые кодировались при помощи 8 битов, но при этом первый бит всегда равнялся нулю. Ему было присвоено имя ASCII и иногда его еще называют 7-битовым стандартом. Он используется большинством компьютерных машин для написания символов латинского алфавита, а также для синтаксиса всех языков программирования и разметки, а также для всех типов данных.

Для поддержки языков, использующих в своем алфавите символы отличные от латинских, был использован восьмой бит байта, а это дало возможность добавить еще 128 дополнительных символов. Была создана серия кодировок ISO 8859, в которых первая часть - это 128 символов ASCII. Самая первая из них, ISO 8859-1, еще ее называют ISO Latin-1 или 8-битовой ASCII, содержит в себе практически все европейские нестандартные символы, а кодировка ISO 8859-5 является русской.

В свою очередь, организация Unicode Consortium создала на основе 16-битового кодирования одноименную кодировку, в которую решено было вместить 65536 символов, каждый весом в два байта. Первые 256 символов Unicode в точности соответствуют ISO 8859-1, а саму кодировку компьютерное сообщество признало и использует все чаще, и если основной кодировкой в HTML раньше считалась ISO 8859-1, то с появлением HTML 4.0, основной кодировкой стала Unicode.

Не желая останавливаться на достигнутом, ISO разработала новый, 32-битовый стандарт кодирования ISO 10646. Он совместим с Unicode, а также имеет несколько своих производных фоматов, одна из которых - формат UTF-8 внедрен в Windows.

Особенности работы с кодировками

Для нормального отображения символов той или иной кодировки, и сервер, и браузер должны обменяться соответствующей служебной информацией. Для этого протокол HTTP, при помощи поля Accept-Charset, позволяет браузеру послать сообщение на сервер о том, какие кодировки в нем доступны и в каком порядке очередности. При этом сервер может выбрать из вариантов документ, исполненный в требуемой кодировке, сообщить браузеру информацию о том, в какой кодировке будет прислана страница, или автоматически перекодировать ее и переслать браузеру. Если такая возможность на сервере не реализована на сервере, то присланный документ можно просмотреть в различных кодировках, выбрав их в настройках браузера вручную.

Еще одним способ сообщить браузеру о стандарте кодирования может сводиться к следующему - автор документа создает служебную информацию для браузера в тэге <МЕТА>, между тэгами <HEAD> и </HEAD>, запись эквивалентную заголовку HTTP, например:
<META HTTP-EQUIV="Content-Type" content="text/html; charset=windows-1251">
Встретив такую инструкцию, браузер автоматически переключается на нужную кодировку.

Русские кодировки

Кодировок, русифицирующих сеть, существует гораздо больше, чем хотелось бы, их как минимум пять: KOI-8 (созданная для UNIX), 866 (для MS DOS), Windows-1251, ISO 8859-5, MAC. Ввиду распространения такого количества русских кодировок, в русской части сети очень распространен способ, когда сервер имеет систему автоматического перекодирования документа на лету, в зависимости от того, какой ответ пришел о браузера.

В итоге, часто происходит например, следующее: документ написан в KOI-8 и имеет об этом запись в тэге <МЕТА>, сервер определяет кодировку браузера Windows-1251 и автоматически перекодирует документ в нее, браузер же получив инструкцию прописанную в тэге <МЕТА> переключается в свою очередь на KOI-8 и пользователь не может прочесть текст. Выход может быть в том, чтобы вовсе не указывать charset в тэге <МЕТА>, в документах, которые будут лежать на таком сервере, либо пользователь сохраняет документ на диске и удаляет эту инструкцию из <МЕТА> вручную.

Создание многоязыковых документов

Иногда web-мастер сталкивается с необходимостью разместить в одном документе текст на двух и более языках. Как правило, это небольшие фрагменты текста, чаще реклама или ссылки, поэтому очень часто их выполняют в виде рисунков экономичного формата .gif Но бывают также случаи, когда на сайте действительно необходимо разместить именно текст. В таком случае можно воспользоваться мнемоническими ссылками на символы Unicode, это значит, что автор использует для создания документа обычную кодировку, а вместо недостающих символов другого языка вставляет их код в таблице Unicode.

Например, если в документ Windows-1251 вставить знак &#246;, или &ouml;, то получим символ ö, применяемый в немецком языке. Этим и объясняется сильное увеличение объема документа в три-четыре раза, когда для его создания используется WYSIWYG-редактор, так как он заменяет каждую букву русского текста такой ссылкой.

Еще один вариант - набрать текст в текстовом процессоре, например в MS Word, а после сохранить его как файл HTML, при этом кодировку документу выбрать, скажем UTF-8.
Пример

Таблица символов

Ниже приведена таблица наиболее часто встречающихся символов и их кодов:

ЗнаккодЗнаккодЗнаккодЗнаккодЗнаккодЗнаккод
"&#34;]&#93;˜&#152;Ó&#211;Ď&#270;ʼn&#329;
#&#35;^&#94;&#153;Ô&#212;ď&#271;Ŋ&#330;
$&#36;_&#95;š&#154;Õ&#213;Đ&#272;ŋ&#331;
%&#37;`&#96;&#155;Ö&#214;đ&#273;Ō&#332;
&&#38;a&#97;œ&#156;×&#215;Ē&#274;ō&#333;
'&#39;b&#98;&#157;Ø&#216;ē&#275;Ŏ&#334;
(&#40;c&#99;ž&#158;Ù&#217;Ĕ&#276;ŏ&#335;
)&#41;d&#100;Ÿ&#159;Ú&#218;ĕ&#277;Ő&#336;
*&#42;e&#101; &#160;Û&#219;Ė&#278;ő&#337;
+&#43;f&#102;¡&#161;Ü&#220;ė&#279;Œ&#338;
,&#44;g&#103;¢&#162;Ý&#221;Ę&#280;œ&#339;
-&#45;h&#104;£&#163;Þ&#222;ę&#281;Ŕ&#340;
.&#46;i&#105;¤&#164;ß&#223;Ě&#282;ŕ&#341;
/&#47;j&#106;¥&#165;à&#224;ě&#283;Ŗ&#342;
0&#48;k&#107;¦&#166;á&#225;Ĝ&#284;ŗ&#343;
1&#49;l&#108;§&#167;â&#226;ĝ&#285;Ř&#344;
2&#50;m&#109;¨&#168;ã&#227;Ğ&#286;ř&#345;
3&#51;n&#110;©&#169;ä&#228;ğ&#287;Ś&#346;
4&#52;o&#111;ª&#170;å&#229;Ġ&#288;ś&#347;
5&#53;p&#112;«&#171;æ&#230;ġ&#289;Ŝ&#348;
6&#54;q&#113;¬&#172;ç&#231;Ģ&#290;ŝ&#349;
7&#55;r&#114;­&#173;è&#232;ģ&#291;Ş&#350;
8&#56;s&#115;®&#174;é&#233;Ĥ&#292;ş&#351;
9&#57;t&#116;¯&#175;ê&#234;ĥ&#293;Š&#352;
:&#58;u&#117;°&#176;ë&#235;Ħ&#294;š&#353;
;&#59;v&#118;±&#177;ì&#236;ħ&#295;Ţ&#354;
<&#60;w&#119;²&#178;í&#237;Ĩ&#296;ţ&#355;
=&#61;x&#120;³&#179;î&#238;ĩ&#297;Ť&#356;
>&#62;y&#121;´&#180;ï&#239;Ī&#298;ť&#357;
?&#63;z&#122;µ&#181;ð&#240;ī&#299;Ŧ&#358;
@&#64;{&#123;&#182;ñ&#241;Ĭ&#300;ŧ&#359;
A&#65;|&#124;·&#183;ò&#242;ĭ&#301;Ũ&#360;
B&#66;}&#125;¸&#184;ó&#243;Į&#302;ũ&#361;
C&#67;~&#126;¹&#185;ô&#244;į&#303;Ū&#362;
D&#68;&#127;º&#186;õ&#245;İ&#304;ū&#363;
E&#69;&#128;»&#187;ö&#246;ı&#305;Ŭ&#364;
F&#70;&#129;¼&#188;÷&#247;IJ&#306;ŭ&#365;
G&#71;&#130;½&#189;ø&#248;ij&#307;Ů&#366;
H&#72;ƒ&#131;¾&#190;ù&#249;Ĵ&#308;ů&#367;
I&#73;&#132;¿&#191;ú&#250;ĵ&#309;Ű&#368;
J&#74;&#133;À&#192;û&#251;Ķ&#310;ű&#369;
K&#75;&#134;Á&#193;ü&#252;ķ&#311;Ų&#370;
L&#76;&#135;Â&#194;ý&#253;ĸ&#312;ų&#371;
M&#77;ˆ&#136;Ã&#195;þ&#254;Ĺ&#313;Ŵ&#372;
N&#78;&#137;Ä&#196;ÿ&#255;ĺ&#314;ŵ&#373;
O&#79;Š&#138;Å&#197;Ā&#256;Ļ&#315;Ŷ&#374;
P&#80;&#139;Æ&#198;ā&#257;ļ&#316;ŷ&#375;
Q&#81;Œ&#140;Ç&#199;Ă&#258;Ľ&#317;Ÿ&#376;
R&#82;&#141;È&#200;ă&#259;ľ&#318;Ź&#377;
S&#83;Ž&#142;É&#201;Ą&#260;Ŀ&#319;ź&#378;
T&#84;&#143;Ê&#202;ą&#261;ŀ&#320;Ż&#379;
U&#85;&#144;Ë&#203;Ć&#262;Ł&#321;ż&#380;
V&#86;&#145;Ì&#204;ć&#263;ł&#322;Ž&#381;
W&#87;&#146;Í&#205;Ĉ&#264;Ń&#323;ž&#382;
X&#88;&#147;Î&#206;ĉ&#265;ń&#324;ſ&#383;
Y&#89;&#148;Ï&#207;Ċ&#266;Ņ&#325;ƀ&#384;
Z&#90;&#149;Ð&#208;ċ&#267;ņ&#326;Ɓ&#385;
[&#91;&#150;Ñ&#209;Č&#268;Ň&#327;Ƃ&#386;
\&#92;&#151;Ò&#210;č&#269;ň&#328;ƃ&#387;




Взять banner bookmark Контакты Отослать ссылку
Раскрутка Полезности FAQ Е- mailer
Главная Учебник HTML Учебник CSS Web- mastering

guide
<dimas>
help

On-line учебник HTML с примерами,
справочник по созданию Web-сайтов.

guide
<dimas>
help

Сайт управляется системой uCoz