20:13

you feel better but not much
Здравствуйте!
В нескольких электронных книгах мне встречалась одна и та же ошибка: разные фамилии с "с" на конце, типа Уильямс, переведены как Уильяме. Я никак не могу понять, с чем это связано? Это небрежный перенос в электронный формат, ошибка редактора или что? Если фамилия склоняется в тексте (у Уильямсов, звать Уильямса), то "с" остается на месте. При этом больше нигде нет опечаток, кроме этой, появляющейся постоянно. Почему эта замена "с" на "е" в фамилиях встречается аж в нескольких электронных книгах?

@темы: Литература

Комментарии
05.04.2018 в 20:27

Female Chauvinistic Pig
Это ошибка OCR (Optical Character Recognition, распознавания текста), прямо стандартная. Другие любимые ошибки - точка вместо запятой, в английском через раз comer вместо corner и die вместо the. В ваших книжках наверняка были и другие мелкие ошибки OCR, может, они просто не так бросились в глаза.
Причин, почему она встречается именно на конце слова и в именительном падеже, а не в других падежах, может быть несколько:
- текст все же проверяли, и вариант "Уильямеа" проверка орфографии подчеркивает, а "Уильяме" нет, потому что это совпадает с "Уильям" в предложном падеже.
- OCR лучше справляется с распознаванием буквы с между другими буквами, чем на конце слова - может зависеть от шрифта, расстояния между буквами, даже положения в начале или конце строчки.

Я периодически еще пользуюсь ABBYY Finereader, и не устает поражать, как в тексте, написанном одним и тем же шрифтом, отсканированном с одинаковым разрешением, одни и те же буквы (чуть ли не в одинаковых словах) программа распознает то уверенно, то с сомнением, то вот так вот меняет с на е и прочие глюки.
05.04.2018 в 20:32

Female Chauvinistic Pig
Mars-san, эт что, я вспомнила, как куча ошибок OCR встретилась мне в печатной книжке! переиздании какой-то более старой. Явно у них не было оригинала в электронном виде, они отсканировали, распознали и не вычитали! да что там, даже не исправили те ошибки, которые бы банальная проверка орфографии Ворда подчеркнула :facepalm:
05.04.2018 в 20:44

you feel better but not much
Идари, спасибо! Сомневалась насчет этой причины, потому что все остальные слова таким не страдали, а мелкие ошибки (если были) остались незамеченными. Про особенности распознавания и вычитки не подумала, теперь буду знать :)
Уф, заговор разрешился
как куча ошибок OCR встретилась мне в печатной книжке!
Мда, вот этого вообще не понимаю. И на покупателей плевать, и на свою репутацию
05.04.2018 в 21:39

There is a fine line between self-control and self-abuse.
Mars-san,
Я не в тему, но увидела у Вас Чарли на аватарке, и думаю: "О, загляну-ка я к автору поста в гости!" А там дневник не ведется, какая досада.
:gigi:
05.04.2018 в 22:06

you feel better but not much
Я не в тему, но увидела у Вас Чарли на аватарке, и думаю: "О, загляну-ка я к автору поста в гости!" А там дневник не ведется, какая досада. :gigi:
Любимейший момент из сериала)
Да, дневник несколько лет уже не веду

06.04.2018 в 00:52

There is a fine line between self-control and self-abuse.
Mars-san,
:friend: Один из любимейших.
Dayman ah-ah-ah!

06.04.2018 в 10:28

"Как будто кто-то в школе не знает, что мисс МакКанарейкл дымит как паровоз, пьёт как сапожник и ругается..."
Tailee, Mars-san, а что за сериал, заинтересовало.
06.04.2018 в 11:28

you feel better but not much
skyfox-ilse, it's always sunny in philadelphia :)
06.04.2018 в 12:33

"Как будто кто-то в школе не знает, что мисс МакКанарейкл дымит как паровоз, пьёт как сапожник и ругается..."
Mars-san, спасибо!
06.04.2018 в 12:55

Female Chauvinistic Pig
Mars-san, пожалуйста!
Про особенности распознавания и вычитки не подумала, теперь буду знать :)
Просто кто сам распознавал в количествах, тот знаком, а догадаться сложно.
Я еще вижу, когда сканировали с книжки в бумажной обложке - она же до конца не раскрывается, если не рвать переплет, конец или начлао строчки ближе к переплету становится изогнутым и сканируется плохо, соответственно, распознается плохо, и на выходе имеем оборванные или неверное распознанные слова - а в электронной версии деление на страницы совершенно другое, и эти нераспознанные слова сначала кажутся рандомными, пока, скажем. не откроешь пдф, где сохранилось исходное разделение на страницы.

Вообще при OCR ужасная беда, когда слово распозналось не совсем верно, но при этом стало другим легитимным словом, а не набором букв. Такое только пруфридинг может выявить, а просто просмотреть и исправить то, что Ворд подчеркнул, не поможет.