Курьезы сканировщика

Forums: 

Забавные нелепицы иной раз рождаются при сканировании. Вот, например, сегодня вместо "высокопоставленным лицам" вдруг возникло "высокопоставленным яйцам".
А чуть ранее слово "мультиканальный" было разделено на два и получилось "мультик анальный".

И у меня тут недавно при распознавании курьёз случился.

Шля - Галя

Цитата:
Были лидеры, стали пидеры.

У меня наоборот, были гнойные пидеры, а стали - гнойные лидеры! :=)

Милое и привычное «н»=«п»
вошел в гостиничный помер
раздавили бунтовщиков тапками
высокопоставленные чипы
члепы Политбюро

"ветхий дом с голубыми наяичниками"

Аватар пользователя Isais

По-моему, это прекрасно: чеболыпой костерок = небольшой костерок.

Замечательная ошибка просто.
Сноска: «Баффи — потребительница вампиров» — американский телесериал о девушке...

Мальчик-с-нальчик

XtraVert написал:
Мальчик-с-нальчик

Отлично!! Это про Билана!

сканировщик - онанировщик

Verdi1 написал:
сканировщик - онанировщик

(задумчиво) а в чем-то оно право....

докус та вместо до куста, голов удержит вместо голову держит

Писхолог отрицательно покачал пальцем.
Причем так и на бумаге. И не понятно, блин, опечатка или автор над психологом приколоться решил. Придется так оставить.

Бороны беззвучно пролетали от мест кормежки к деревьям — спать.


Представил себе картинку. Это прямо ужастик какой-то выходит...

Аватар пользователя Isais

kozlenok написал:
Бороны беззвучно пролетали от мест кормежки к деревьям — спать.


Представил себе картинку. Это прямо ужастик какой-то выходит...

Даже если в книге были бАроны - тоже ...нетривиально.
Аватар пользователя remembecoventry

Isais написал:
kozlenok написал:
Бороны беззвучно пролетали от мест кормежки к деревьям — спать.


Представил себе картинку. Это прямо ужастик какой-то выходит...

Даже если в книге были бАроны - тоже ...нетривиально.
Мизрикогнишен был в слове «спать». Должно быть — «сиять». Бороны — сияют.

Мне почему-то пришел в голову другой вариант, более логичный. Не сиять они туда летали...
На самом деле там были "бараны". Это ж очевидно. :)

Аватар пользователя V_E

Алмис написал:
Мне почему-то пришел в голову другой вариант, более логичный. Не сиять они туда летали...
На самом деле там были "бараны". Это ж очевидно. :)

А, может, вараны? Тоже неплохой ужастик просматривается. Такие громадные... С высунутыми языками...

"Пенис священнослужителей" вместо "Пение священнослужителей".

В тексте достаточно часто появляется фамилия Стиханов, фр упорно распознаёт её Стаханов. "наряду" у него "народу", но есть ошибки которые практически невозможно выловить),напр. вместо "исписанные",распознаёт "написанные". У меня развивается маниакальная подозрительность к его распознаванию.))

Что-то в Эбби начудили в последних версиях ФР.

До сих пор юзаю ФР 8 и таких проблем нет )
Распознает почти идеально, и отсебятиной не занимается.
Встречаются редкие косяки, но они легко ловятся.

Если со всякими неудобствами в более старых версий ФР вроде лишней ручной работы можно смириться, то такое корежение текста в новых версиях, которое зачастую вообще ничем не выловишь - нафиг-нафиг.

UPD.
Я понял.
Это у эбби такая задумка по договоренности с Мин. культуры.
Каждый сканировщик-распознаватель должен внимательно прочесть всю книгу в процессе распознавания ее.
Типа повышения культурного уровня населения.

TaKir написал:
...
UPD.
Я понял.
Это у эбби такая задумка по договоренности с Мин. культуры.
Каждый сканировщик-распознаватель должен внимательно прочесть всю книгу в процессе распознавания ее.
Типа повышения культурного уровня населения.

согласно кивает собственной ГН головой

TaKir написал:
Распознает почти идеально, и отсебятиной не занимается.
Встречаются редкие косяки, но они легко ловятся.

Это от исходного материала зависит. Есть такие книжки, где буквы н, и, п, ц даже глазом различить трудно. И с, о, е тоже. Вот в них-то такие лулзы и встречаются.

TaKir написал:
Что-то в Эбби начудили в последних версиях ФР.

До сих пор юзаю ФР 8 и таких проблем нет )
Распознает почти идеально, и отсебятиной не занимается.


Качество распознавания у последней версии намного выше, чем у предпоследней. А у той было намного выше, чем предпредпоследней и т. д.

Можем с тобой провести эксперимент: распознать один и тот же текст разными версиями и сравнить результат (без доп. обработки).

Есть книги, где едва наберётся с десяток ошибок распознавания (при хорошем качестве скана), а есть такие, где вся страница в кляксах "неуверенно распознанных символов" (особенно старая полиграфия этим грешит). Такшта... ;)

У меня даже была одна фотканная книга, где было менее 10 ошибок.

Дык это... )
Давай сканы нескольких страниц, что лично у тебя так криво распознавались в твоем 2911-м ФР, что смысл текста менялся и только вычитка могла помочь...
Я посмотрю у себя ) На версии, которая по твоему убеждению сильно хуже распознает )
Кто ж против )

Мне эти фразы типа ...качество "намного выше" а потом "еще намного выше" ни о чем не говорят )

Поскольку 8 версия ФР распознает нормальные сканы и так прекрасно, если шрифт более-менее стандартный и бумага - не газета 100-летней давности, содранная из-под обоев )

TaKir написал:
Дык это... )
Давай сканы нескольких страниц, что лично у тебя так криво распознавались в твоем 2911-м ФР, что смысл текста менялся и только вычитка могла помочь...
Я посмотрю у себя ) На версии, которая по твоему убеждению сильно хуже распознает )
Кто ж против )

Ну, так, чтобы смысл текста менялся - у меня такого не было. А "сложные", когда приходится внимательно смотреть и частенько править, - изволь:
14 стр.

Выложи экпорт после распознавания, а я выложу свой. Сравним. :)

К тому же ФР11 работает в несколько раз быстрее, чем предыдущие версии (даже ФР10), но оставим это за скобками. ;)

Спс, забрал, прогнал через ФР - 10 мелких косяков, большинство в сносках, которые мелким текстом.

Попозже выложу получившееся (отметил косяки распознавания красным болдом), дома инет побыстрее )

TaKir написал:
Спс, забрал, прогнал через ФР - 10 мелких косяков, большинство в сносках, которые мелким текстом.

Ну, если порядка 10, то можно и не выкладывать. У меня приблизительно столько же. Может, 8. Может, 7. Не слишком принципиально.
Большинство из них вылавливается при помощи скрипта "поиск по регэкспам", который ты, собственно, и заполнил большей частью. ;)

Но поверь мне, 11-я версия - это качественный скачок вперёд даже по сравнению с 10-й. У меня-то есть опыт работы с каждой, начиная с 6-й. И последняя значительно отличается от всех остальных. Хоть и со своими "заскоками", отрицать не буду.

Я не уговариваю тебя переходить на неё, но говорить о том, что 8-я лучше... э-э-э... м-м-м... ну, неправильно, скажем так. ;)

Кинь в меня рабочей версией, плиз, (можно в личку), я ее посмотрю параллельно )

Качественный скачок говоришь? )
Я бы рад согласиться, но только и слышу, начиная с 10 версии, ФР о "чудесах" распознавания, включая полную отсебятину в тексте, массы дурацких стилей, потерю кусков текста, потерю сносок и проч.

Каждый раз читаю такие топики про новые ФР и удивляюсь, все было ок с распознаванием, а тут такие косяки лезут.
Оно мне надо?

Скорость распознавания в новых версиях выросла?
Зато потом прочитать от корки до корки придется каждое слово?
Оно мне зачем?

Я поставил распознаваться 500 страниц и пошел курить или чай-кофе пить )
3 минуты мне погоды не сделают )
Зато уверен, что текст не будет искорежен )

TaKir написал:

Качественный скачок говоришь? )


Угу.
  1. Возможность эскпорта сразу в fb2, без промежуточных конвертеров
  2. Полная сохранность распознанных и добавленных вручную италика и болда
  3. Сохранение тире в диалогах
  4. Минимирование числа склеенных абзацев (правда, за счёт увеличения числа разорванных, но для них хотя бы в ФБЕ есть удобный скрипт)
  5. При хорошей типографике - хорошая заготовка (иногда и не требующая или требующая минимальной доработки) структуры файла
  6. Быстрая работа
  7. Хорошее качество распознавания
  8. Улучшенное распознавание сносок (я человек недоверчивый, но многие поручают ФР расставлять сноски в фб2 - часто тут тоже не требуется доработки)


У ФР11 есть один очень серьёзный баг: распознавание диалога иногда в стиле "содержание", при этом при экспорте в фб2 эта часть текста не передаётся. Как с ним бороться, я писала в своём блоге. Это разовая акция в каждой книге, которая обезопасит тебя от опасности потерять куски текста.

Похожая ситуация - с текстом в нижней трети страницы, отделённым от остального текста, который иногда распознается как сноска. Лечится одновременно с предыдущим.

И ещё мне очень не хватает отменённой возможности добавлять в словарь все парадигмы слова. Но это терпимо. Многие и не пользовались этой возможностью вовсе.



ФР11 можно взять, например, здесь.

golma1 написал:

  1. Возможность эскпорта сразу в fb2, без промежуточных конвертеров
  2. Полная сохранность распознанных и добавленных вручную италика и болда
  3. Сохранение тире в диалогах
  4. Минимирование числа склеенных абзацев (правда, за счёт увеличения числа разорванных, но для них хотя бы в ФБЕ есть удобный скрипт)
  5. При хорошей типографике - хорошая заготовка (иногда и не требующая или требующая минимальной доработки) структуры файла
  6. Быстрая работа
  7. Хорошее качество распознавания
  8. Улучшенное распознавание сносок (я человек недоверчивый, но многие поручают ФР расставлять сноски в фб2 - часто тут тоже не требуется доработки)


У ФР11 есть один очень серьёзный баг: распознавание диалога иногда в стиле "содержание", при этом при экспорте в фб2 эта часть текста не передаётся. Как с ним бороться, я писала в своём блоге. Это разовая акция в каждой книге, которая обезопасит тебя от опасности потерять куски текста.

Похожая ситуация - с текстом в нижней трети страницы, отделённым от остального текста, который иногда распознается как сноска. Лечится одновременно с предыдущим.






1) Не понял, в чем тут скачок? Позволяет тем, кто хочет тяп-ляп, сразу получить фб2, и закинуть в инет?
Пользуюсь после ФР вордом со скриптами и ФБД, заодно отлавливаются разные кривые концовки предложений и проч. Потом уже в ФБЕ.
2) В чем скачок тут? На 8 версии никогда не наблюдал проблем с сохранением или добавлением руками болдов-италиков. Только что проверил в 8 версии - прекрасно сохраняется и добавляется.
3) Уж не помню, когда последний раз были проблемы с тире в диалогах. ЕМНИП - может, в 6 версии сталкивался, да и то нечасто.
4) Сама понимаешь, сомнительный аргумент. Склейка отслеживается в ФР без проблем. Разорванные легко лечатся скриптами ворда, фбе и т.п.
5) Чистка и правка текста никуда не денется. Мне, например, многое сильно проще скриптами и регэкспами в ворде поймать. И потом все равно найти еще какие-то буковки для правки в ФБЕ )
6) Насколько быстрее? Компенсирует ли это отсебятину в тексте? (подлинным - по длинным и подобное)?
7) Назвать хорошим распознавание, когда надо следить, не пропал ли текст, я назвать не могу при всем желании.
Для меня это главный кошмар, когда надо за ФР еще проверять, весь ли текст распознается и передается.
Для чего возня со стилями - в чем преимущество вообще в их наличии в ФР? Можно ли выключить стили совсем (не потеряв болдов-курсивов) и не переживать за сохранность кусков текста?
8) Обработка сносок - существенный момент, когда их много.

В итоге - очень сомнительные преимущества лично для меня.

golma1 написал:

ФР11 можно взять, например, здесь.

Спс, гляну )

TaKir написал:

В итоге - очень сомнительные преимущества лично для меня.

Ну и ладно. Зачем мне переубеждать всем довольного ТаКира? В-)

Да, я ретроград )
Как в том анекдоте - "только ради бога, ничего не трогай, ничего не меняй" )
(Привет Тигра)

Но 11 ФР качаться поставил, спасибо )

Кстати, появился ли в 11 ФР поиск и вставка знака абзаца?

TaKir написал:
Кстати, появился ли в 11 ФР поиск и вставка знака абзаца?

Нет. Разрыв строки и мягкий перенос - как и в предыдущих версиях.

А у меня остались ностальгически-светлые воспоминания об FR5.
Возможно он и проигрывает нынешним версиям в скорости и где-то в качестве распознавания, но у него были и огромные преимущества, например, на автомате очень точно подбирал яркость так, чтобы тень в развороте книги (в ямке) не сливалась с текстом, т.е. не было ни кляксы, ни белой дырки. Это позволяло сканировать книги довольно бережно, не разворачивая и не прижимая их так сильно, как часто требовалось в более поздних версиях. Проблем с диалогами было меньше, потому что оформление их списками появилось позже, начиная с версии 6. И главное, ни разу не было, чтобы какой-то кусок страницы (особенно последние строки) вдруг просто проигнорировался, как сейчас бывает. А тогда я сканировал реально помногу. Сейчас-то только балуюсь иногда.
Отказаться от FR5 пришлось (с огромным сожалением) только из-за перехода на новые версии Windows.
И что характерно, у меня это была единственная лицензионная версия, все последующие были ломаными. Может это играет какую-то роль?

s_Sergius написал:

И что характерно, у меня это была единственная лицензионная версия, все последующие были ломаными. Может это играет какую-то роль?

Задумалась. У меня ФР11 лицензионный. Может, и правда дело в этом?

Разбираюсь с ФР 11.
Есть вопросы по алгоритму )

Назначение стилей производится в какой момент - после загрузки книги, до наложения блоков или после? До распознавания текста или после?
Как применить стили ко всем страницам? Сейчас на распознанном тексте у меня на каждой странице свои стили, те же сноски все разного размера.
Не передаются стили "Подписи к картинкам". Распознаются, но не передаются в ворд и фб2.
Какой вариант выбирать - форматированный текст, редактируемая копия или точная копия?
Влияет ли это на качество распознавания и стили и на передачу в ворд и фб2?

Из хорошего текстового pdf не передался в фб2 ни один курсив и болд - чисто плэйн текст. В ворд передается нормально.
(Блоки были наложены с помощью шаблона, одинаковые на все страницы, и поправлены в нужных местах).

Если несложно, добавь при случае ответы в свой блог по алгоритму работы с ФР, плиз!

Т.е. желательно описать процесс с самого начала - открываем ФР, делаем то-то, потом то-то и т.п.

TaKir написал:

Если несложно, добавь при случае ответы в свой блог по алгоритму работы с ФР, плиз!

Добавила. :)

golma1 написал:
Качество распознавания у последней версии намного выше, чем у предпоследней. А у той было намного выше, чем предпредпоследней и т. д. {...} а есть такие, где вся страница в кляксах "неуверенно распознанных символов" (особенно старая полиграфия этим грешит).
Во-во. Попробуй тоже при случае провести таких экспериментов со словарём. В идеале, если ошибка систематическая, неплохо бы убрать мешающееся под ногами слово из постоянного словаря, но как это сделать - я пока не знаю. :-(

TaKir написал:
Что-то в Эбби начудили в последних версиях ФР.
Юзаю 9-й, обратил внимание: наличие слова в словаре пинает распознавалку в сторону этого слова, если часть букв распознана неустойчиво и если альтернативных вариантов нет.
Исследовал явление "отсебятинга" на книге "Сироты квартала Бельвилль". Буковки тоненькие, FR постоянно путает "и", "н" и "п". Персонажа зовут Рири, соответственно на выходе - примерно равновероятны все 9 вариантов. :-( Занёс слово "Рири" в словарь и прогнал распознавалку по новой - как рукой сняло. :-)
TaKir написал:
Каждый сканировщик-распознаватель должен внимательно прочесть всю книгу в процессе распознавания ее.
А таки да! Или какой смысл делать и тем более выкладывать книгу, которую не читал? :-(

Рыжий Тигра написал:
Персонажа зовут Рири, соответственно на выходе - примерно равновероятны все 9 вариантов.

Я при обнаружении подобной постоянной ошибки делаю массовую замену - с учетом регистра и - в подходящем случае "только слово целиком".

Фокус со словарём мне несколько раз не помог, поэтому я им не пользуюсь.

Спасибо администрации Либрусека за нормализацию функционирования Библпотеки! Теперь можно вернуться

Я использую FR11 выпуск 11.02.102.583 - практически никаких проблем. В последних книгах плохо распознавал сочетание "гр" выдавал, например, вместо гроб - фоб.

При проблемах с распознаванием ФР ищет ближайшее слово в словаре. Отсюда эти курьезы. При хороших сканах ничего подобного не наблюдается. На сайте Twirx скачал две книги. Кто-то залил не проверяя. Видно прямо из ФР. Там по всему тексту вместо "гр" - "ф", "ыо" - "ью", "JI или J1 - Л" и т. п.

(del)

На счет FR11
Делаю книгу 900 стр. где-то 4000 сносок
ворд (точная) и djvu - минут за 5 создались
pdf - вылетает с ошибкой после 20 мин думания, на любых настройках
fb2 - висит третий час. Прерывал первый раз выгрузку в fb2 через час, получился недописанный 3,5 метровый файл - остановилось на сноске №1085))

А ещё минусы, но это не только у FR11, - использует только одно ядро проца(1/4) и 250М памяти. Хотя памяти 16гиг, можно было бы все туда сгрузить и не "свопить" на диск

Vadi написал:
На счет FR11
Делаю книгу 900 стр. где-то 4000 сносок
ворд (точная) и djvu - минут за 5 создались
pdf - вылетает с ошибкой после 20 мин думания, на любых настройках
fb2 - висит третий час. Прерывал первый раз выгрузку в fb2 через час, получился недописанный 3,5 метровый файл - остановилось на сноске №1085))

А ещё минусы, но это не только у FR11, - использует только одно ядро проца(1/4) и 250М памяти. Хотя памяти 16гиг, можно было бы все туда сгрузить и не "свопить" на диск

У меня нет советов в данном случае. :( Не сталкивалась. Может, кто-то другой подскажет.

Разве что удивляюсь скорости экспорта в djvu. У меня обычно длится намного дольше. Наверное, зависит от исходного скана.

golma1 написал:

Разве что удивляюсь скорости экспорта в djvu. У меня обычно длится намного дольше. Наверное, зависит от исходного скана.

в настройках экспорта djvu поставил 150dpi...

Я pdf или djvu(реже) всегда делаю: так удобнее вычитывать, чем по сканам, да и пропавшую часть текста можно по ходу скопипастить...

Страницы

X