Все новости от 18 июня 2003 г. XML и Unicode: опасная смесь
Организации по стандартизации предупреждают: набор символов, позволяющий компьютерам писать на любом языке, от чешского до китайского, может заставить веб-браузеры заикаться.
Unicode, публикуемый консорциумом Unicode Consortium, представляет собой стандартный набор символов для компьютеров, в котором каждому письменному знаку на любом языке присвоен определенный номер. XML (Extensible Markup Language), рекомендованный консорциумом World Wide Web Consortium (W3C) для разметки цифровых документов и создания новых языков разметки для специфических задач или отраслей, опирается на Unicode и четко отслеживает его редакции.
Однако технический отчет, выпущенный Unicode Consortium — и одновременно опубликованный группой интернационализации W3C, — предупреждает авторов документов, что некоторые особенности Unicode могут нарушать работу XML-приложений, HTML-браузеров и других программ.
Конфликты между Unicode и языками разметки для веба проистекают из принципиального различия в подходах, лежащих в основе набора символов и веб-стандартов. Если Unicode гарантирует взаимно-однозначное соответствие каждому символу на странице, то XML и его сородичи проявляют больше гибкости, позволяя авторам присваивать одному и тому же символу, слову или странице разные стилевые и функциональные атрибуты.
Например, Unicode содержит так называемые «символы совместимости», отдельные коды для обозначения надстрочных и подстрочных цифровых или буквенных индексов. В HTML или XML, напротив, автор должен использовать основной символ, а затем оформить его как надстрочный или подстрочный индекс.
Чтобы все работало, W3C рекомендует авторам пользоваться исключительно возможностями разметки.
Символы совместимости «не являются долгосрочным, хорошим средством», считает руководитель группы интернационализации W3C и внештатный научный сотрудник Лаборатории вычислительной техники Массачусетского технологического института Мартин Дёрст: «Мы призываем авторов со всей ответственностью и осторожностью подходить к использованию Unicode в сочетании с XML».
Обычно авторы знают, что их Unicode-документы будут читать посредством веб-браузеров и других XML-приложений. Но бывает, что конфликты возникают неожиданно, когда в XML-приложение поступает информация из существующих баз данных и информационных хранилищ.
В этих случаях приложения, предназначенные для работы с языками разметки, начинают спотыкаться на символах, обозначающих знаки вертикальной и горизонтальной табуляции и прочие управляющие символы.
«В отчете мы приводим множество всякого рода символов, которые так или иначе могут применяться в старых системах или тексте без форматирования, но когда в вашем распоряжении есть средства разметки, то вместо этих символов лучше использовать структуру, — говорит Дёрст. — Работая с XML, пользуйтесь средствами XML. Управляющие символы как следует работать не будут».
В конце этого года четвертая версия Unicode выйдет в виде книги. Сейчас доступны предварительные версии Unicode 4.0.
Предыдущие публикации:
В продолжение темы:
|
|
| dr-Wicked 18 Jun 2003 8:02 PM |
Ну и чушь |
|
| bravomail.boom.ru - bravomail.boom.rua.c 18 Jun 2003 11:25 PM |
почему чушь? |
|
| Skull - sibskullmail.ru 20 Jun 2003 5:27 AM |
Быстрее бы на Unicode все перешли! Гугль - молодец, за что этот поисковик и ценим. А некоторые уроды, работающие на Windows, до сих пор символы из windows-1251 не пытаются сконвертировать в koi8-r. :( |
|
| Yuri Abele 20 Jun 2003 11:05 AM |
To Skull: Для особо горячих парней: Windows-1251 это тоже UNICODE, а вот koi8-r совсем нет ;-) |
|
| Serge Sereda - serge_seredanospam.hotmail.com 20 Jun 2003 11:23 AM |
Господа (если есть такие :-) ! Дабы уразуметь, что UNICODE является наихудшим выбором в смысле универсальной международной системы кодирования символов, Вам стоит ознакомиться со статьёй Павла Кармышева "'Проблема кодировок': стечение обстоятельств или стратегический замысел?". А также с приведёнными в списке литературы источниками. P.S. Я уже молчу о том, что этот @%#$^%&*& Unicode увеличивает трафик вдвое... С уважением, Сергей Середа Движение "ПОтребитель" (http://consumer.nm.ru http://cie.ase.md) |
|
| Serge Sereda - serge_seredanospam.hotmail.com 20 Jun 2003 11:26 AM |
Тьфу! Забыл УРЛ статьи указать! Вот он: http://cie.ase.md/~sereda/kod.htm или же http://consumer.nm.ru/kod.htm С уважением, Сергей Середа Движение "ПОтребитель" (http://consumer.nm.ru http://cie.ase.md/~sereda) |
|
| Sergei - sergei77ukrpost.net 20 Jun 2003 3:50 PM |
Windows-1251 кстати не UNICODE, так же как и Koi8-r. Skull, я что-то твоей фразы не понял - ты считаешь всех кто пользуется Windows и кодировкой Windows-1251 уродами? Ну-ну, постарайся теперь аргументированно рассказать зачем мне нужен Koi8 под Windows. Чтобы читать письма от дорогих любителей Linux'a ? Или может более полезное применение найдется? |
|
| Skull - sibskullmail.ru 23 Jun 2003 6:06 AM |
2Serge Sereda: если UTF-8, то совсем даже не вдвое... 2Sergei: "ты считаешь всех кто пользуется Windows и кодировкой Windows-1251 уродами" - нет, я так не считаю. Уродами я считаю тех, кто до сих пор не знает, что символов типографских ёлочек в KOI8-R нет, и при конвертации из 1251 в KOI8-R они просто конвертят только русские символы. Отсюда страницы таких горе-конвертителей в Konqueror & IE показываются криво - вместо ёлочек получаем псевдографику. Так что ваш наезд не обоснован. :)) |
|
| eXOR 24 Jun 2003 7:02 AM |
2 Sergei: >Или может более полезное применение найдется? То есть "интересность" и "полезность" людей для тебя определяется ОС, которой они пользуются? :-)
|
|
| glassy 24 Jun 2003 10:36 AM |
присоединяюсь к Скуллу. А UTF-8 все-таки лучше. Траффик он увеличивает, по большому счету, не так уж и сильно, и полностью lpzs-совместим. |
|
| Волонтер 24 Jun 2003 11:20 PM |
2 Serge Sereda: > http://consumer.nm.ru/ Информация немного устаревшая. 1996-2000 сейчас уже никому не интересен. И немного не соответствующая действительности. Возьмем, например, http://consumer.nm.ru/paradox.htm: "на небольшом предприятии штатом в 100 человек сидели несколько (2-3) бухгалтеров и один Главбух. Они на счетах и калькуляторах сводили без особых проблем балансы своих финансовых отчетов, записывая их на бумажке." Вы про машбюро в 3-5 человек специально не упомянули? Они на пишущих машинках печатали эти отчеты в три смены. Где сейчас машбюро? "эти отрасли хай-тека между собой состоят в сговоре." И миром евреи правят. Serge, Вы не правы. За один мегабакс PTO и Федор побегут Linux ставить, а glassy со Skull'ом станут ярыми фанатами Windows 3.11. Возьмем, например, MS SQL 7.0. По непроверенной информации ядро было написано господами из Oracle, которых БГ просто купил с потрохами. Вывод. Serge, Ваша правда никому не нужна. Миром правят деньги, а не здравый смысл. Unicode - это круто и модно, а все остальное - от лукавого. Не нужно ругать БГ и MS. Как говорил Б. Титомир: "А пипл хавает". Это психология. Людей не изменить. Самые посещаемые сайты были, есть и будут порносайты. Вопросы? |
|
| Skull - sibskullmail.ru 26 Jun 2003 9:16 AM |
2Волонтёр: не, для жизни 1 мегабакса мало! За 2 мегабакса согласился бы. :))) |
|
| eXOR 27 Jun 2003 6:14 AM |
2 Skull: "- Гань, говорят ты родину за рубль продашь? - Продаст. Ну за рубль может и не продаст, но за два - точно продаст." близко к тексту очень хорошего фильма :-). |
|
|