Периодически в тексте наблюдаются неправильно подставленные/удалённые конвертером пробелы. Примеры следуют: Исходный текст Вывод latex-writer'a -------------- -------------------- ``Dell 1024x768 Laptop Display Panel'' 1024 x768 @freesource.info|http://freesource.info@ freesource. info @linuxsupport.ru|http://linuxsupport. ru@ linuxsupport. ru номер от 0 до n-1. n -1 приводы (CD- и DVD-RW) CD-и
Ещё примеры с цифрами: Исходный текст Вывод latex-writer'a -------------- -------------------- ядро Linux 2.6.11 2.6 .11 6.8.2 6.8 .2
исправлено в -alt8: теперь в числах может быть сколько угодно точек, внутри слова бывают не только буквы, есть висячий знак препинаания "-", а конструкция "n-1" считается Бойлем-Мариоттом
разъём(ы) даёт пробел: разъём (ы) Вообще закрывать это явно преждевременно.
> разъём(ы) > даёт пробел: > разъём (ы) То есть скобка -- это не знак препинания, а буква? Можно и так.
> > даёт пробел: > > разъём (ы) > То есть скобка -- это не знак препинания, а буква? Можно и так. Смотря что ты понимаешь под буквой/препинанием. Бывает ещё вот так: (например?!) И интересный вопрос, что будет со смайликом, если его угораздит встретиться в тексте.
> > То есть скобка -- это не знак препинания, а буква? Можно и так. > Смотря что ты понимаешь под буквой/препинанием. "Буква" -- это то, из чего состоит слово. "Знак препинания" -- разделитель, возможно, выделяемый пробелами. Похоже, ты за то, чтобы вообще не было "знаков препинания"? Если уж разделитель, то разделитель? Это бы сильно упростило mk_read, да, только тогда его переделывать немножко надо. Знаки препинания были задуманы для борьбы с системными опечатками (например, многие любят пробел перед запятой ставить). Видимо, это я зря, и стоит их вообще изъять? Это важный вопрос. Некоторые знаки всё равно надо оставить самостоятельными единицами: "...", "-", "--". Что ещё? > Бывает ещё вот так: (например?!) > И интересный вопрос, что будет со смайликом, если его угораздит встретиться в > тексте. Попилится, если не будет взято в ^^.
> Знаки препинания были задуманы для борьбы с системными опечатками (например, > многие любят пробел перед запятой ставить). Видимо, это я зря, и стоит их вообще > изъять? Это важный вопрос. Если борьба с опечатками -- единственное, для чего заведены знаки препинания -- то я однозначно за то, чтобы их изъять. Такого рода искусственно-интеллектуальные улучшения текста скорее должны выполняться специальной утилитой -- той самой, которая также знает, где следует ставить неразрывные пробелы, чем отбиваются инициалы от фамилии, отделять ли пробелами тире между Бойлем и Мариоттом и т. п. Это такой особый этап работы с текстом, его полиграфическое причёсывание, причём оно никогда не бывает полностью автоматическим -- слишком уж много разнообразных случаев. Мне знакомы пара велосипедов такого типа. На мой взгляд, эта задача ортогональна конвертации из одной разметки в другую. > Некоторые знаки всё равно надо оставить самостоятельными единицами: "...", "-", > "--". Что ещё? Ну да, это те, которые на самом деле нуль-местные теги. А дефис зачем к ним относится?
(In reply to comment #7) > Если борьба с опечатками -- единственное, для чего заведены знаки препинания > то я однозначно за то, чтобы их изъять. Не только. Ещё для того. чтобы output-преобразователи не слишком много занимались postprocessing-ом. То есть для выделения символов, которые по определению вполне могут быть не-буквами. Однако, если подумать, это -- тоже ортогональная задача. Мало ли, какие символы не являются буквами в текущем выходном формате? А формат хранения это снова упростит. Однако вот, например, кавычки. Насколько проще -- или сложнее -- работать с тегом "закавыченный текст" вместо "левая кавычка, слово, слово, ..., правая кавычка"? Особенно в рассуждении ёлочек и лапок? У меня сейчас закавыченный текст -- это тег. > > Некоторые знаки всё равно надо оставить самостоятельными единицами: "...", "-", "--". Что ещё? > Ну да, это те, которые на самом деле нуль-местные теги. Так что, других нет? > А дефис зачем к ним относится? А он не является нульместным тегом? Тогда незачем.
> Не только. Ещё для того. чтобы output-преобразователи не слишком много > занимались postprocessing-ом. То есть для выделения символов, которые по > определению вполне могут быть не-буквами. > > Однако, если подумать, это -- тоже ортогональная задача. Мало ли, какие символы > не являются буквами в текущем выходном формате? А формат хранения это снова > упростит. Безусловно ортогональная. Список символов, которые нужно экранировать, специфичен для каждого формата, и там может оказаться что угодно. Предусматривать их все в общем формате хранения, видимо, не следует. > Однако вот, например, кавычки. Насколько проще -- или сложнее -- работать с > тегом "закавыченный текст" вместо "левая кавычка, слово, слово, ..., правая > кавычка"? Особенно в рассуждении ёлочек и лапок? У меня сейчас закавыченный > текст -- это тег. Так а что мешает ему оставаться с тегом? Нормальный одноместный тег: открывающая последовательность, текст, закрывающая последовательность. Чем отличается ``текст'' от <текст>? > > > Некоторые знаки всё равно надо оставить самостоятельными единицами: "...", > "-", "--". Что ещё? > > Ну да, это те, которые на самом деле нуль-местные теги. > Так что, других нет? Абзац ещё -- \n\n. А больше я не могу припомнить. > > А дефис зачем к ним относится? > А он не является нульместным тегом? Тогда незачем. Похоже, незачем.
Кирилл, проверь. в каком состоянии эта бага. Может, её закрыть?
(In reply to comment #10) > Кирилл, проверь. в каком состоянии эта бага. Может, её закрыть? man(8) -> man (8) С точками и дефисами ведет себя корректно.