На главную страницу AlgoNet В сотрудничестве с ZDNet
АРХИВ СТАТЕЙ 2003-6-18 на главную / новости от 2003-6-18
AlgoNet.ru
поиск

 

Место для Вашей рекламы!

 

Все новости от 18 июня 2003 г.

XML и Unicode: опасная смесь

Организации по стандартизации предупреждают: набор символов, позволяющий компьютерам писать на любом языке, от чешского до китайского, может заставить веб-браузеры заикаться.

Unicode, публикуемый консорциумом Unicode Consortium, представляет собой стандартный набор символов для компьютеров, в котором каждому письменному знаку на любом языке присвоен определенный номер. XML (Extensible Markup Language), рекомендованный консорциумом World Wide Web Consortium (W3C) для разметки цифровых документов и создания новых языков разметки для специфических задач или отраслей, опирается на Unicode и четко отслеживает его редакции.

Однако технический отчет, выпущенный Unicode Consortium — и одновременно опубликованный группой интернационализации W3C, — предупреждает авторов документов, что некоторые особенности Unicode могут нарушать работу XML-приложений, HTML-браузеров и других программ.

Конфликты между Unicode и языками разметки для веба проистекают из принципиального различия в подходах, лежащих в основе набора символов и веб-стандартов. Если Unicode гарантирует взаимно-однозначное соответствие каждому символу на странице, то XML и его сородичи проявляют больше гибкости, позволяя авторам присваивать одному и тому же символу, слову или странице разные стилевые и функциональные атрибуты.

Например, Unicode содержит так называемые «символы совместимости», отдельные коды для обозначения надстрочных и подстрочных цифровых или буквенных индексов. В HTML или XML, напротив, автор должен использовать основной символ, а затем оформить его как надстрочный или подстрочный индекс.

Чтобы все работало, W3C рекомендует авторам пользоваться исключительно возможностями разметки. Символы совместимости «не являются долгосрочным, хорошим средством», считает руководитель группы интернационализации W3C и внештатный научный сотрудник Лаборатории вычислительной техники Массачусетского технологического института Мартин Дёрст: «Мы призываем авторов со всей ответственностью и осторожностью подходить к использованию Unicode в сочетании с XML».

Обычно авторы знают, что их Unicode-документы будут читать посредством веб-браузеров и других XML-приложений. Но бывает, что конфликты возникают неожиданно, когда в XML-приложение поступает информация из существующих баз данных и информационных хранилищ. В этих случаях приложения, предназначенные для работы с языками разметки, начинают спотыкаться на символах, обозначающих знаки вертикальной и горизонтальной табуляции и прочие управляющие символы.

«В отчете мы приводим множество всякого рода символов, которые так или иначе могут применяться в старых системах или тексте без форматирования, но когда в вашем распоряжении есть средства разметки, то вместо этих символов лучше использовать структуру, — говорит Дёрст. — Работая с XML, пользуйтесь средствами XML. Управляющие символы как следует работать не будут».

В конце этого года четвертая версия Unicode выйдет в виде книги. Сейчас доступны предварительные версии Unicode 4.0

 Предыдущие публикации:
2003-01-23   Веб-консорциум синхронизирует текст и видео
2003-04-02   W3C совместила две спецификации веб-технологий
 В продолжение темы:
2003-07-25   Молодая компания намерена упростить XML
2003-09-22   За использование стандартов придется платить?
Обсуждение и комментарии
dr-Wicked
18 Jun 2003 8:02 PM
Ну и чушь
 

bravomail.boom.ru - bravomail.boom.rua.c
18 Jun 2003 11:25 PM
почему чушь?
 

Skull - sibskullmail.ru
20 Jun 2003 5:27 AM
Быстрее бы на Unicode все перешли! Гугль - молодец, за что этот поисковик и ценим. А некоторые уроды, работающие на Windows, до сих пор символы из windows-1251 не пытаются сконвертировать в koi8-r. :(
 

Yuri Abele
20 Jun 2003 11:05 AM
To Skull:
Для особо горячих парней: Windows-1251 это тоже UNICODE, а вот koi8-r совсем нет ;-)
 

Serge Sereda - serge_seredanospam.hotmail.com
20 Jun 2003 11:23 AM
Господа (если есть такие :-) !

Дабы уразуметь, что UNICODE является наихудшим выбором в смысле универсальной международной системы кодирования символов, Вам стоит ознакомиться со статьёй Павла Кармышева "'Проблема кодировок': стечение обстоятельств или стратегический замысел?".
А также с приведёнными в списке литературы источниками.

P.S. Я уже молчу о том, что этот @%#$^%&*& Unicode увеличивает трафик вдвое...

С уважением,

Сергей Середа
Движение "ПОтребитель"
(http://consumer.nm.ru
http://cie.ase.md)
 

Serge Sereda - serge_seredanospam.hotmail.com
20 Jun 2003 11:26 AM
Тьфу! Забыл УРЛ статьи указать!
Вот он: http://cie.ase.md/~sereda/kod.htm
или же http://consumer.nm.ru/kod.htm

С уважением,

Сергей Середа
Движение "ПОтребитель"
(http://consumer.nm.ru
http://cie.ase.md/~sereda)
 

Sergei - sergei77ukrpost.net
20 Jun 2003 3:50 PM
Windows-1251 кстати не UNICODE, так же как и Koi8-r.

Skull, я что-то твоей фразы не понял - ты считаешь всех кто пользуется Windows и кодировкой Windows-1251 уродами? Ну-ну, постарайся теперь аргументированно рассказать зачем мне нужен Koi8 под Windows. Чтобы читать письма от дорогих любителей Linux'a ? Или может более полезное применение найдется?
 

Skull - sibskullmail.ru
23 Jun 2003 6:06 AM
2Serge Sereda: если UTF-8, то совсем даже не вдвое...

2Sergei: "ты считаешь всех кто пользуется Windows и кодировкой Windows-1251 уродами" - нет, я так не считаю. Уродами я считаю тех, кто до сих пор не знает, что символов типографских ёлочек в KOI8-R нет, и при конвертации из 1251 в KOI8-R они просто конвертят только русские символы. Отсюда страницы таких горе-конвертителей в Konqueror & IE показываются криво - вместо ёлочек получаем псевдографику. Так что ваш наезд не обоснован. :))
 

eXOR
24 Jun 2003 7:02 AM
2 Sergei:
>Или может более полезное применение найдется?
То есть "интересность" и "полезность" людей для тебя определяется ОС, которой они пользуются? :-)

 

glassy
24 Jun 2003 10:36 AM
присоединяюсь к Скуллу. А UTF-8 все-таки лучше. Траффик он увеличивает, по большому счету, не так уж и сильно, и полностью lpzs-совместим.
 

Волонтер
24 Jun 2003 11:20 PM
2 Serge Sereda:
> http://consumer.nm.ru/
Информация немного устаревшая. 1996-2000 сейчас уже никому не интересен. И немного не соответствующая действительности. Возьмем, например, http://consumer.nm.ru/paradox.htm:
"на небольшом предприятии штатом в 100 человек сидели несколько (2-3) бухгалтеров и один Главбух. Они на счетах и калькуляторах сводили без особых проблем балансы своих финансовых отчетов, записывая их на бумажке."

Вы про машбюро в 3-5 человек специально не упомянули? Они на пишущих машинках печатали эти отчеты в три смены. Где сейчас машбюро?

"эти отрасли хай-тека между собой состоят в сговоре."

И миром евреи правят. Serge, Вы не правы. За один мегабакс PTO и Федор побегут Linux ставить, а glassy со Skull'ом станут ярыми фанатами Windows 3.11. Возьмем, например, MS SQL 7.0.
По непроверенной информации ядро было написано господами из Oracle, которых БГ просто купил с потрохами.

Вывод. Serge, Ваша правда никому не нужна. Миром правят деньги, а не здравый смысл. Unicode - это круто и модно, а все остальное - от лукавого. Не нужно ругать БГ и MS. Как говорил Б. Титомир: "А пипл хавает". Это психология. Людей не изменить. Самые посещаемые сайты были, есть и будут порносайты. Вопросы?
 

Skull - sibskullmail.ru
26 Jun 2003 9:16 AM
2Волонтёр: не, для жизни 1 мегабакса мало! За 2 мегабакса согласился бы. :)))
 

eXOR
27 Jun 2003 6:14 AM
2 Skull:
"- Гань, говорят ты родину за рубль продашь?
- Продаст. Ну за рубль может и не продаст, но за два - точно продаст." близко к тексту очень хорошего фильма :-).
 

 

← май 2003 13  14  16  17  18  19  20  22  23 июль 2003 →
Реклама!
 

 

Место для Вашей рекламы!