you feel better but not much
Здравствуйте!
В нескольких электронных книгах мне встречалась одна и та же ошибка: разные фамилии с "с" на конце, типа Уильямс, переведены как Уильяме. Я никак не могу понять, с чем это связано? Это небрежный перенос в электронный формат, ошибка редактора или что? Если фамилия склоняется в тексте (у Уильямсов, звать Уильямса), то "с" остается на месте. При этом больше нигде нет опечаток, кроме этой, появляющейся постоянно. Почему эта замена "с" на "е" в фамилиях встречается аж в нескольких электронных книгах?
В нескольких электронных книгах мне встречалась одна и та же ошибка: разные фамилии с "с" на конце, типа Уильямс, переведены как Уильяме. Я никак не могу понять, с чем это связано? Это небрежный перенос в электронный формат, ошибка редактора или что? Если фамилия склоняется в тексте (у Уильямсов, звать Уильямса), то "с" остается на месте. При этом больше нигде нет опечаток, кроме этой, появляющейся постоянно. Почему эта замена "с" на "е" в фамилиях встречается аж в нескольких электронных книгах?
Причин, почему она встречается именно на конце слова и в именительном падеже, а не в других падежах, может быть несколько:
- текст все же проверяли, и вариант "Уильямеа" проверка орфографии подчеркивает, а "Уильяме" нет, потому что это совпадает с "Уильям" в предложном падеже.
- OCR лучше справляется с распознаванием буквы с между другими буквами, чем на конце слова - может зависеть от шрифта, расстояния между буквами, даже положения в начале или конце строчки.
Я периодически еще пользуюсь ABBYY Finereader, и не устает поражать, как в тексте, написанном одним и тем же шрифтом, отсканированном с одинаковым разрешением, одни и те же буквы (чуть ли не в одинаковых словах) программа распознает то уверенно, то с сомнением, то вот так вот меняет с на е и прочие глюки.
Уф, заговор разрешился
как куча ошибок OCR встретилась мне в печатной книжке!
Мда, вот этого вообще не понимаю. И на покупателей плевать, и на свою репутацию
Я не в тему, но увидела у Вас Чарли на аватарке, и думаю: "О, загляну-ка я к автору поста в гости!" А там дневник не ведется, какая досада.
Любимейший момент из сериала)
Да, дневник несколько лет уже не веду
Dayman ah-ah-ah!
Про особенности распознавания и вычитки не подумала, теперь буду знать
Просто кто сам распознавал в количествах, тот знаком, а догадаться сложно.
Я еще вижу, когда сканировали с книжки в бумажной обложке - она же до конца не раскрывается, если не рвать переплет, конец или начлао строчки ближе к переплету становится изогнутым и сканируется плохо, соответственно, распознается плохо, и на выходе имеем оборванные или неверное распознанные слова - а в электронной версии деление на страницы совершенно другое, и эти нераспознанные слова сначала кажутся рандомными, пока, скажем. не откроешь пдф, где сохранилось исходное разделение на страницы.
Вообще при OCR ужасная беда, когда слово распозналось не совсем верно, но при этом стало другим легитимным словом, а не набором букв. Такое только пруфридинг может выявить, а просто просмотреть и исправить то, что Ворд подчеркнул, не поможет.