Скачать 1.1 Mb.
|
Введение Перед тем, как сканировать какую-либо книгу, надо сначала понять, не сделано ли это до Вас кем-либо ещё. Для этого рекомендуется поискать по разным электронным библиотекам (по фамилии автора, например) это творение. Если книги и правда нигде не найдено, то можно приступать к работе. При создании книги нужно исходить из следующих соображений. Во-первых, получаемый файл должен быть разумного размера. Так, книга объёмом 300-400 страниц не должна занимать больше 10 мегабайт. Во-вторых, получаемый DjVu-файл должен быть таким, чтобы его потом можно было напечатать, и при этом текст можно будет прочесть. Хорошо, если при этом на страницах не будет содержаться ничего лишнего, то есть чёрных краёв. В этом случае при печати тонер или чернила расходуются только на текст. Далее мы расскажем, как делать книги, удовлетворяющие этим критериям. Следует иметь в виду, что предлагаемый способ не претендует на скорость/оптимальность/универсальность/идеальное_качество/что_либо_ещё. Это просто один из методов, дающий в целом неплохой результат. Итак, приступим... Шаг 1: Сканирование Существует несколько методов изготовления книги. Страницы можно фотографировать или сканировать. Последний метод является наиболее качественным, поэтому мы будем описывать именно его. Пусть пока для простоты наша книга не содержит цветных (или полутоновых) иллюстраций и цветного текста. Тогда лучше всего для сканирования использовать программу FineReader 7.0 (далее - FR для краткости). Еще ссылка в помощь. п. 1. Настройки сканера в FR Некоторые производители сканеров предоставляют некоторый набор ПО для сканирования. Оно часто работает медленно и не так, как нужно. В FR имеется возможность использовать его собственный интерфейс для работы со сканером, и это обычно удобнее и быстрее. Чтобы использовать этот интерфейс, нужно в настройках сканера выбрать пункт "Use FR Interface" ("Использовать интерфейс FR"). Важными параметрами сканирования являются разрешение (resolution) и яркость (brightness). В FR эти настройки имеются в диалоговом окне "Scanner Settings" ("Настройки сканера"). Скажем про них пару слов. Оптическое разрешение - это то количество точек на дюйм, которое будет содержать получаемое изображение. Чем оно больше, тем больше получается файл и тем качественнее получается само изображение. Для книг приемлемым является разрешение 300 DPI (dots per inch - точек на дюйм), но лучше использовать 600 DPI (хотя процесс сканирования при этом занимает больше времени). Что касается яркости, то очень часто хватает автоматической настройки, но иногда, если бумага слишком тёмная, или шрифт слишком жирный, её приходится регулировать вручную. Для этого в диалоге настроек яркости нужно выбрать пункт "Manual" ("Вручную") и установить ползунок в нужное положение. Какое оно должно быть - определяется опытным путём: выберите типичную страницу, отсканируйте с разной яркостью и посмотрите, какое положение ползунка даёт наиболее качественное изображение. При этом нужно помнить, что установленная вручную яркость может перестать быть приемлемой, если изменить разрешение. п. 2. Сканирование Кладите книгу на сканер как можно более ровно! Главное - прижать её посильнее на сгибе, чтобы страница поплотнее прилегала к стеклу. Если не лень - сканируйте не разворот целиком, а по одной странице, так получается качественнее. п. 3: Очистка от мусора Чистить края страниц от "мусора" нужно не только для того, чтобы не тратить чернила. Его наличие отрицательно сказывается на размере выходного файла. В FineReader есть инструмент типа ластика, которым можно убирать с отсканированных страниц прямоугольные фрагменты "мусора". Как правило, если при сканировании достаточно плотно прижимать книгу к стеклу сканера, то мусор бывает только по краям, и проблем с его уничтожением не возникает (правда, это долгий процесс сам по себе). п. 4: Сохранение страниц FR сохраняет все страницы в формате TIFF (чёрно-белом). Когда все страницы отсканированы, нужно сохранить так называемый "пакет" ("batch"). При сохранении FR создает папку с кучей файлов (отдельных страниц), к каждой из них прилагается .frf-файл. Но нам нужны только TIFF-ы. Складываем их для простоты в отдельную папку, а далее работа с FR закончена, и мы переходим к шагу 2. Шаг 2: Подготовка страниц Чтобы обработка велась быстрее, можно отконвертировать все файлы в bmp-формат. Сделать это можно с помощью утилиты IrfanView (её и некоторые plug-in'ы, которые лучше сразу поставить вместе с программой, можно скачать по ссылкам: Viewer, plug-ins). В меню File есть пункт "batch conversion/rename", в котором можно обработать сразу много однотипных файлов. С помощью той же программы можно порезать сканированные развороты на отдельные страницы. Там есть операция crop, которая вырезает из картинки прямоугольный кусок, задаваемый координатой левого верхнего угла, а также шириной и длиной. Так можно вырезать отдельно чётные и нечётные страницы (пользуясь тем, что утилита позволяет увеличивать номер выходных файлов на 2). Таким образом, мы имеем набор отдельных страниц. Можно также повернуть (опция Fine rotation в Irfan view) криво положенные страницы и убрать остатки мусора. А когда эта кропотливая работа будет завершена, переводим дух и приступаем к шагу 3. Шаг 3: Кодирование в DjVu Для этого сначала запаситесь компьютером помощнее и воткните в него 512 метров памяти, если Вам дорого время. Запускаем DjVu Editor Pro 5.0, открываем в нём ПЕРВУЮ страницу книги, а далее говорим ему "Insert pages after..." в меню "edit", и открываем сразу штук 50-60 файлов-страниц, потом ещё столько же, и так далее. Вы спросите: "почему не все сразу?". А потому, что будете ждать до скончания века, пока он их прожуёт. Причём при добавлении файлов надо не перепутать порядок (в файлере их нужно выделять так, чтобы в строке они шли в правильном порядке, начиная со второго). Можно выделить все разом (Ctrl+A), и потом, зажав Ctrl, убрать первый файл, который уже есть. Нажимаем OK и идём пить кофе. Признаком завершения операции открытия является появление изображений страниц, начиная со второй, в левой части окна (там, где отображаются страницы в колонку). А теперь говорим "Save As...", выбираем тип документа "bundled", качество ставим "quasilossless", разрешение - какое было при сканировании, другое бессмысленно. Снова давим OK и второй раз идём пить кофе. Лучше поставить галочку "OCR", только нужно проверить, что язык книги соответствует настройкам Editor'a (edit->preferences). Тогда в книге можно будет потом делать контекстный поиск. Но в этом случае кофе придётся пить дважды: когда кодирование завершится, начнётся процесс распознавания, столь же долгий и мучительный. Ну, вот, кажется, и всё. Отметим также, что для распознавания текста можно использовать информацию из FRF-файлов, предоставляемых FR. Для этого нужно перед сохранением пакета сделать распознавание текста в FR, а уже к готовому DjVu файлу применить программу FRFGrab. Мы её пока не используем, но возможно, что это неплохая вещь. © DMVN Corporation, 2005 http://dmvn.mexmat.net ICQ: 244633817 Вопросы, комментарии, замечания и предложения направляйте на мыло dmvn на сервере mccme.ru или в форум на сайте (http://dmvn.mexmat.net/forum.php). Ссылки в тему:
Рекомендации по сканированию и дальнейшей обработке научных и прочих книг Для начала нужно концепции разъяснить, подробнее см. ниже. Обновление 2005-02-01. Сразу же оговорюсь: я почти никогда не работаю в системе MS Windows, за исключением случаев крайней необходимости. (Мой девиз: GNU/Linux is the answer; what was your question?) Поэтому мой выбор программного обеспечения будет, возможно, далёк от вашего. Но впрочем почти все свободные программы из-под GNU (djvulibre, libtiff, pbmtools, ...) написаны так, что они прекрасно компилируются и работают в MS Windows. Моя цель: получить отсканированный файл научной книги, с формулами, рисунками и так далее, который подходит как для просмотра на экране, так и для печати. В громадном большинстве случаев меня вполне удовлетворят чёрно-белые изображения страниц в разрешении 300 точек (300 dpi). О переводе изображений в электронный текстовый формат типа MS Word, TeX, ..., основанный на распознавании текста (OCR), речь обычно не идёт, т.к. книги содержат много формул, которые нельзя надёжно распознавать без очень долгого ручного труда. Тем более что современные форматы (PDF версии 1.6, т.е. начиная с Акробата 6, и Djvu 3.х) позволяют хранить распознанный текст вместе с очень сильно сжатым изображением и при этом предоставляют поиск по распознанному тексту. Графические форматы предыдущих поколений (gif, tiff, pdf версии до 1.5) не позволяли сжимать изображение до приемлемого размера, требуя примерно по 100 КБ на страницу, в то время как формат Djvu требует обычно от 5 до 15 КБ на страницу. Такое радикальное сокращение размеров напоминает революцию в музыкальной индустрии, произошедшую с разработкой формата mp3. Теперь можно позволить себе хранить на локальном диске компьютера десятки тысяч отсканированных книг. Выбор конечного формата книг На мой взгляд, формат Djvu вполне достаточен для хранения книг. Однако Djvu иногда искажает форму букв, стараясь получше сжать изображение. Поэтому книги, распечатанные на бумагу из дежавю-файлов, выглядят хуже (буквы слегка неровные, например). Меня лично это не раздражает, лишь бы можно было прочесть. Но другие люди придерживаются мнения, что надо хранить неискажённое изображение (lossless Djvu, сокращённо ll-djvu) или в формате PDF (последние версии этого формата дают хорошее сжатие, приближаясь к эффективности формата дежавю). Так что вам решать. Для справки: среди дежавю-файлов моей домашней библиотеке сейчас в среднем около 11 КБ на страницу. Обычно я храню книгу в lossless формате (ll-djvu, pdf, ps, html, ...) только если этот другой формат даёт выигрыш в размере файла, или если качество дежавю файла гораздо хуже, или если книга супер-ценная, но скан плохого качества и хочется застраховаться от возможных потерь информации. Почему файлы с сосканированными книгами такие большие? Потому что сосканированные изображения страниц содержат гораздо больше информации, чем электронный текст. Так что всегда следует предпочитать графическим текстовые форматы (txt, html, TeX, и Postscript/PDF сделанные из отформатированного текста). Но здесь речь идёт именно о сосканированных книгах. Если сканировать в низком разрешении, то качество изображения будет плохим, а если в высоком разрешении, то размер файла будет большим. Однако для формата сжатия JBIG2 (который используется в Djvu и PDF1.6-jbig2), важнее, чтобы текст был "чистым", т.е. чтобы буквы были чёткие, непотрескавшиеся и хорошо отделены друг от друга, и чтобы не было "шума" из чёрных точек или полос. Особенно это важно для формата Djvu, который пытается оптимизировать размер файла распознаванием похожих букв. Если бумага грязная, жёлтая или просвечивает на обратную страницу, а печать блеклая, то размер сосканированного файла будет существенно больше, чем для текста, отпечатанного ярко-чёрным шрифтом на чистой белой бумаге. Скан хорошего качества сильно сжимается даже в 600 дпи. Общая картина событий Итак, процесс оцифровки книг разбивается на этапы: 1) Постраничное сканирование физической книги, промежуточный результат - обычно набор tiff файлов с изображениями страниц. 2) Обработка изображений страниц (подчистка, разрезание разворотов на отдельные страницы, поворот, преобразование цвета). 3) Подготовка конечного продукта - компактных файлов в формате PDF и/или Djvu. На завершающем этаме можно сделать OCR. 4) Лечение проблем с конечными файлами (неверная ориентация страниц, пропущенные или переставленные страницы, склеивание кусков книги, слишком большой размер файла из-за неоптимального сжатия). Это весьма актуально в том случае, если у вас нет исходных сканов и вы уже не можете повторить этапы 1 и 2. Для работы вам понадобятся: сканер, программа для сканирования, программы для работы с изображениями страниц, и программы для перевода сосканированных изображений в нужный формат. Замечу, что даже без подчистки, разрезания и т.д. часто можно получить вполне приемлемое качество и размер конечного файла. Сканирование Я пользуюсь сканером Canon LiDE 50, потому что для него есть поддержка в программе VueScan под Linux. Сканер дешёвый, лёгкий и компактный, но не быстрый (около минуты на лист), так что я кладу книгу на сканер, сверху придавливаю парой тяжёлых томов, и могу заниматься другими делами, пока сканируется лист. После гудка я переворачиваю лист и нажимаю кнопку прямо на сканере - это удобнее, чем нажимать на компьютере, где мне пришлось бы каждый раз переходить в окно программы сканирования и значит прерывать основную работу. (Сейчас, когда я это пишу, сканируется Боголюбов и Ширков.) Сканировать можно либо по одной странице, либо разворотами. Сканировать разворотами вдвое быстрее, но жизненно важно, чтобы книга хорошо (почти полностью) раскрывалась и плотно по всей ширине прилегала к сканеру. Иначе получатся чёрные полосы, закрывающие часть текста, или текст будет сильно размыт. Иногда книга плохо раскрывается в начале или в конце, а в середине хорошо. Это надо контролировать, вы сэкономите кучу труда потом! Когда книга слишком большого формата и не влезает в сканер, приходится сканировать по одной странице. Это обычно приводит к существенно меньшим проблемам с чёрными полосами, но естественно занимает почти вдвое больше времени. Перед сканированием проверьте с помощью Preview, что выбранная вами рамка прямоугольного региона сканирования надёжно покрывает текст как в начале книги, так и в середине и в конце. А то при раскрытии книги в разных местах текст может съезжать вбок. Лучше оставить поля, чем потом отлавливать обрезанные края листов. Я предпочитаю настроить всё с запасом, чтобы потом не надо было контролировать каждую страницу. Поскольку мой сканер очень медленный, я сканирую в разрешении 300 dpi, за исключением книг с мелким шрифтом и плохой печатью, когда такое разрешение приводит к плохо читаемому тексту и надо пользоваться 600 dpi. Если ваш сканер быстрый - делайте всегда 600 дпи. В сомнительном случае лучше попробовать пару страниц отсканировать, перевести для верности в Djvu и посмотреть результат. Сканирование в greyscale я не рекомендую - обычно это приводит только к потере времени (однако см. ниже рассказ botolph). Промежуточные файлы получаются в формате TIFF с хорошей компрессией (метод CCITT), этот формат автоматически выбран моей программой сканирования (Vuescan). Пакетное сканирование под Windows можно делать из FineReader и ACDSee. Программы DjvuSolo / DocumentEditor позволяют сканировать прямо с сохранением в дежавю, но это очень неоптимально, т.к. дежавю файл трудно редактировать, чистить, поворачивать и т.д. Лучше всего сканировать с помощью чисто графической программы, которая позволяет записывать результат в файлы постранично. Настройте такой режим сканирования, когда каждая страница после сканирования автоматически записывается в файл под названием page0001.tif, page0002.tif, ... Правда, имейте в виду, что иногда некоторые файлы формата TIFF не читаются некоторыми программами из-за сбоев в формате или ошибок в программах. Поэтому проверяйте, что вы в самом деле можете просматривать только что сосканированные файлы страниц, и будьте готовы к необходимости перегнать все эти файлы в другой формат (разумеется, автоматически, а не каждый файл вручную). Под GNU/Linux все такие операции тривиально автоматизируются на основе shell scripts. Под MS Windows можно пользоваться PaintShopPro, ACDSee, ... Я иногда пользуюсь коммерческой программой Image Alchemy, которая умеет читать почти все виды TIFF, даже такие, на которых виснет PaintShopPro. Эта программа есть для Linux и для MS DOS. Сырые сосканированные файлы TIFF лучше всего архивировать куда-нибудь, а не стирать сразу после получения конечного результата. Мало ли что потом случится, а сканирование всё-таки самый трудоёмкий этап. После сканирования проверьте, что не пропустили страниц. Я обычно просматриваю номера страниц в файлах page0010.tif, page0110.tif, page0210.tif - они должны образовывать арифметическую прогрессию. Также я вычисляю количество сосканированных страниц и сравниваю с правильным. Пропуск страниц залечивается так: я сканирую пропущенную страницу и называю её например page0110.5.tif. Тогда при сортировке она будет следовать за page0110.0.tif. Обработка сосканированного Обработка нужна для исправления дефектов скана. Например, если сканировать разворотами, то почти всегда остаются чёрные полосы между страницами, и страницы почти всегда чуть-чуть перекошены. Для исправления этих дефектов есть несколько способов: самый клёвый - программа ScanKromsator от bolega. К сожалению, эта программа не является свободно распространяемой и нет исходников, поэтому работает только под текущими версиями MS Windows. Я пока что не смог воспользоваться этой программой, потому что эмулятор MS Windows, который у меня есть, в чём-то с ней пока несовместим. Результат этого этапа - опять-таки постраничные файлы TIFF, но уже исправленные (повёрнутые, почищенные и т.д.) Рекомендую их также архивировать на CDR. Создание конечного файла Итак, у вас есть постраничные изображения и вы хотите сделать конечный продукт. Формат Djvu (дежавю) Для создания Djvu оптимально иметь чёрно-белые (не greyscale!) изображения страниц в разрешении 300 dpi или 600 dpi. Способ 1: сделать один ZIP файл (не RAR!!) со всеми тиффами и загрузить этот файл в дежавюку. См. readme.djvu.txt - там все детали по поводу дежавюки. Преимущества: работает быстро и качественно, для англоязычных текстов даёт сразу OCR. Недостатки: иногда дежавюка отказывается читать tiff файлы без объяснений причин ("a problem was encountered", но не говорит, что за проблема). Из моего опыта я могу заключить, что причины скорее всего такие: 1) сбои в tiff формате, или такие варианты этого формата, которые не поддерживаются сервером any2djvu. 2) даётся слишком много страниц сразу. Кроме того, на русском тексте OCR даёт чушь типа PAOCPAOPIIC. Лечение недостатков: пакетно перевести все тиффы в .gif, запаковать в ZIP файл и загрузить на any2djvu снова. Если не помогает, то разбить на несколько ZIP файлов по 200 или 300 страниц в каждом и потом склеить полученные дежавю файлы. (Дежавюка работает оптимально, если число страниц в одном куске делится на 20.) Для OCR теперь есть программа DjvuOCR от gencho, она берёт файлы FineReader'а и присоединяет их к готовым файлам djvu. Вот это класс! Примечание: теперь не рекомендуется пользоваться службой any2djvu. Там не всегда оптимальное кодирование pdf->djvu и плохое OCR по сравнению с Файнридером. Способ 2: воспользоваться DjvuSolo 3.1. Преимущества: не надо никуда загружать много десятков мегабайт, всё работает дома. Недостатки: иногда не читает файлы тифф (то же самое, что и дежавюка). При сбоях в файлах тифф программа иногда виснет. Лечение: переводить из тифф в bmp. Способ 3: воспользоваться Document Editor. Преимущества: OCR для англоязычных текстов, мощные возможности редактирования дежавю файлов. Недостатки: дежавю файлы получаются версии 4.5, которую не читают некоторые старые плагины (лечение: утилита DjvuVersion). Качество получается иногда хуже, чем от сервера any2djvu, а иногда лучше. Формат PDF Ну вообще-то я не спец по пдф файлам, но скажу, что знаю: Способ 1: взять Acrobat 6 (не Acrobat Reader, а полную программу, она дорого стоит!) и сделать PDF с классным сжатием и OCR. Преимущества: размер PDF приближается к размеру дежавю-файла. Недостатки: такой PDF иногда плохо читается более старыми программами, работает медленнее. Способ 2: использовать tiff2ps, ps2pdf, tiff2pdf Недостатки: пдф получается очень большого размера по сравнению с дежавю. Способ 3: утилита c42pdf - преобразование TIFF G4 -> PDF. Размер PDF файла будет точно такой же, как суммарный размер всех TIFF файлов. Лечение проблем с конечными файлами Вы получили от кого-то конечный файл (djvu, pdf), а он вас не устраивает. Исходных сканов нет. Что делать? Почти все проблемы решаются тем, что из конечных файлов извлекаются изображения отдельных страниц, и потом проходят по этапам 1 - 3. Иногда есть и более короткие пути решения. Как извлечь изображения страниц из файла djvu? Ответ: с помощью утилиты ddjvu, или djvudecode.exe, можно извлечь из djvu файла изображения всех страниц, скажем в формате PBM. При этом можно указать требуемое разрешение и размер картинки в пикселях. Как извлечь изображения страниц из файла pdf? Ответ: Это делает Acrobat, ещё есть программа pdfExtractTiff для MS Windows. Под GNU/Linux эта операция не всегда осуществима! (из-за козней формата пдф последних версий и из-за отсутствия Acrobat). Под Linux почти всегда работает pdftoppm, pdfimages (из пакета xpdf 3.0). Можно с помощью AcrobatReader распечатать в Postscript и далее действовать с помощью ghostscript, но это работает не всегда. Или можно попробовать сразу через ghostscript, но он не понимает некоторых последних версий формата пдф (но если работает, то получается гораздо быстрее, чем xpdf). Теперь некоторые часто мне встречающиеся ситуации: Проблема 1: дежавю файл жутко большого размера. Типичный дежавю файл от нормально сосканированной книги должен быть от 5 до 15 КБ на страницу (не на разворот!). Если в файле 30 или 50 КБ на страницу, то тут что-то не так. Чаще всего -- сканировали в greyscale вместо black/white. Или файл сосканирован в плохом разрешении и грязный - но это уже почти не лечится. Лечение проблемы с greyscale: Способ 1: с помощью djvups (это утилита из djvulibre, для MS Windows тоже есть) распечатать в формат Postscript (.ps) и при этом задать чёрно-белый режим печати. Сжать gzipом (получится файл .ps.gz) и залить в дежавюку. Надеяться на лучшее. Способ 2: извлечь все страницы в greyscale PBM, затем сконвертировать в чёрно-белые TIFF, далее как выше. Проблема 2: дежавю файл неправильно повёрнут, или белым по чёрному вместо чёрного по белому, или в нём слишком большие белые поля по бокам текста. Лечение: Способ 1: извлечь изображения страниц и лечить их. Способ 2: в djvu-редакторе Document Editor можно поворачивать страницы, однако полученный дежавю-файл будет правильно читаться только новыми версиями плагина djvu. При просмотре в старых версиях плагина текст не будет повёрнут. Проблема 3: пропущены страницы в дежавю или в пдф файле, или есть несколько кусков файла, которые надо склеить. Лечение: Недостающие страницы надо отсканировать, преобразовать в дежавю или соответственно в пдф, и вставить в конечный файл в нужные места. Для работы с дежавю файлами (вставка страниц, склеивание файлов) можно использовать утилиту djvm из библиотеки djvulibre. Читайте руководство к ней. Для склеивания и разрезания пдф файлов можно использовать бесплатные утилиты из комплекта PDF-TOOLS (скачивать с www.pdf-tools.com). Там есть утилиты pdcat (склеить несколько пдф файлов, а также повернуть пдф файл на 90 или 180 градусов), pdsel (вырезать блок страниц), и т.д. Проблема 4: пдф файл жутко большого размера. Лечение: либо его надо оптимизировать с помощью Acrobat, либо перевести в дежавю. Проблема 5: перевод пдф файлов в дежавю. Решение 1: залить пдф файл в дежавюку. Надеяться на лучшее. Недостатки: работает очень долго, иногда несколько часов. Иногда получается очень плохой дежавю файл из-за того, что в пдф файле неверно указано разрешение или размер страниц. Иногда просто не работает из-за проблем с пдф файлом (хотя Acrobat Reader может показывать вроде бы нормально) или из-за пдф формата 1.5, который не поддерживается сервером any2djvu. Файлы пдф, сделанные в совместимом с AcrobatReader 4 режиме, почти всегда проходят через дежавюку нормально. Преимущества: залил файл - отдыхай и жди. Если пдф файл содержит гиперлинки (на тот же файл), то они воспроизводятся в дежавю файле. Гиперлинки на другие файлы сохраняются как гиперлинки на что-то, но работать не будут. Их можно потом вручную вылечить в DjvuSolo 3.1, например, или с помощью утилиты djvused. Недостатки: гиперлинки в последнее время не работают, а файл djvu получается слишком большой. Служба any2djvu начиная с мая 2004 года стала работать существенно хуже прежнего и я больше не рекомендую ей пользоваться. Используйте DjvuSolo / DjvuEditor. Решение 2: извлечь изображения страниц из пдф файла и далее действовать как выше. Преимущества: полный контроль над разрешением и качеством изображений. Недостатки: много мороки, и под GNU/Linux не всегда можно с первого раза правильно извлечь изображения из пдф файла. Проблема 6: пдф файл, отсканированный в greyscale, был пропущен через дежавюку и дал дежавю файл жутко большого размера. Это происходит из-за того, что дежавю формат очень неоптимален для greyscale изображений. Лечение: Исходник - пдф файл - надо нарезать на порции по 60, максимум 80 страниц (лучше блоки делать кратными 20) и пропустить через дежавюку, задав режим "black/white image". затем надо склеить полученные дежавю файлы. Проблема 7: перевод дежавю файлов в пдф (исходных сканов нет). Решение 1: извлечь изображения страниц из дежавю файла и перевести их в пдф, как указано выше. Решение 2: распечатать в пдф с помощью MS Windows драйвера типа PDFPrint. Или распечатать в Postscript и затем перевести в пдф дистиллером. Обычно результаты получаются хуже, чем в решении 1 (т.е. пдф файлы большие), но мороки меньше. Успехов!! _________________________________ Подробнее: _________________________________ Итак, Вам хочется отсканировать книгу/статью и после того хранить ее в удобной для Вас форме - pdf, djvu,... multipage-tiff,.. Естественно, хочется как можно быстрее сканировать, но получить максимально возможное при этом качество... Тут завязаны многие нюансы, которые следует учесть ЗАРАНЕЕ - до этапа сканирования следует осознать, в какой промежуточной форме и с каким качеством сохранять ПРОМЕЖУТОЧНЫЕ результаты - и что хочется получить в конце. Я постарался дать основные идеи - может быть тривиальные большинству опытных - может быть полезные начинающим - и выложил простейшие (свободные!) утилиты для переработки и полировки результата - конечно не сравнимые с творчеством профи - ну што могем :-) Выбор сканера Если Вы не требуете какой-то суперреалистичной передачи тонких оттенков цветов - и сканировать будете в black-white или grayscale то естественный вопрос - какой сканер при этом самый быстрый? Если позволить себе потратить не более 200 $ то ОЧЕНЬ разумный выбор - сканеры серии Epson Perfection. Там сейчас много моделей, я года 2 назад работал на одном из первых - он давал для b/w 300 dpi примерно 20 сек. на скан. Сейчас у меня Epson Perfection 1660 Photo - на том же разрешении легко 4 скана в минуту, причем если в паре с ACDSee работать - очень удобно настроить их совместную работу - сразу будет виден и результат и на каждый скан надо жать ровно 1 кнопку... Если даже выбираете grayscale (8bit) то тоже довольно быстро. 600 dpi будет раза в 2 медленнее (естественно). Только полдня вначале пришлось разбираться с настройками самого драйвера сканера и ACDSee - а потом как по маслу! По моему опыту - что-то другие фирмы (даже вроде солидные типа Hewlett Packard) скоростью не увлекаются - и других недорогих быстрых сканеров не встречал... Большинство спецификаций сканеров либо умалчивает о реальном быстродействии - или говорят о raw-режиме - видимо имея в виду "продварительный просмотр" низкого разрешения. Либо хвастаются идеальной цветопередачей - умалчивая о времени... В различных тестовых сравнениях сканеров в интернете тоже не очень тут много обращают внимания - в основном копаясь в той же цветопередаче - тут кстати честно отмечу якобы профессионалы замечают что мой любимый Epson Perfection не самый идеальный - а я не замечал, вроде все ОК. В общем, по скорости - мой выбор - Epson Perfection! Его и рекомендую. Заметим. что многие дешевые сканеры китайских брэндов опасны еще тем, что дают разрешение и качество намного НИЖЕ заявляемых - сам видел такой - так результат при установке 300 dpi выглядет как будто там 100 или ниже, регулировки порога между черным/белым нет... И прочие ужасы! Люди писали о "потоковых сканерах" - типа по 1 сек на скан с автоматической загрузкой страниц А4 (книжки в разворот не пойдут!) - ну стоимость таких монстров даже не берусь предсказать. Тут прежде всего обговорим три вещи: 1) вы хотите сделать МНОГО страниц и хорошего качества или побыстрее парочку страниц - и забыть об этом деле? Если второе - я вряд ли помогу. Ну можете в этом случае попробовать напрямую через любую программу, понимающую сканер с автоматической настройкой - и не удивляйтесь если это будет по 5 минут на страницу! Если же ваша работа объемна - то потратив время, чтобы разобраться разок в основах и общих принципах - получите очень большой выигрыш в скорости и скорее всего в качестве. 2) на каждом шагу придется выбирать между автоматизацией/ручной работой или между скоростью/качеством. Я стараюсь идти в обоих случаях первой дорогой. Как правило, и качество не страдает. 3) я НИЧЕГО не говорю о РАСПОЗНАВАНИИ сканированного текста. Мой идеал - графический формат, не текстовый. Вы должны понимать разницу. И знать, что такое "графический файл" и как он отличается от "текстового" (включая продукты таких программ, как Word) Форматы файлов Итак, о конечных и промежуточных форматах. Конечным форматом может быть в настоящее время любой Вам подходящий - из тех, что достаточно компактно хранят сканированные многостраничные графические изображения и удобно их показывают/печатают: pdf, djvu, multipage tiff,... А вот ПРОМЕЖУТОЧНЫЙ формат - который можно почистить-подрезать-(далее по вкусу) лучше выбрать другой - хотя и (полный) Adobe Acrobat и DJVu Solo или DJVu Editor позволяют НАПРЯМУЮ сканировать многостраничный документ прямо не выходя из указанных программ (см. их меню "File -> Acquire") - но вот потом... As is! Кстати, можно терзаться мыслью - какой из указанных форматов "лучше"? Это я не случайто в кавычках слово поставил! Во-первых, дело не только какой "лучше жмет" или другой параметр на выбор, тут по моему опыту надо осознать, что современное железо действительно стоит НАМНОГО дешевле чем Ваше время - и купив большой винчестер или пишущий быстрый CD-дисковод Вы сэкономите кучу сил не особо концентрируясь на рекордах сжатия - выбирайте наиболее удобный - ну может Вам хочется чтоб качество показываемой страницы на экране было максимальным, или чтоб листать побыстрее. Во-вторых - ЛЮБОЙ формат МОЖНО преобразовать в ЛЮБОЙ! Об этом я собираюсь выкладывать информацию в поддиректории transform-any2any (пока соотв. readme - в стадии написания...) Правда, качество может и пострадать - если не разбираться долго и упорно с настройками... Опыт подсказывает следующее: сканируйте каждую страницу в отдельный файл в формате TIFF (расширение tif) - потом будет удобнее и почистить от черных полос в разворотах и порезать если надо разворот на отдельные страницы и преобразовать/склеить в один файл требуемого Вам конечного формата. Отступление в сторону - ликбез по графическим файлам - если Вы СОВСЕМ не понимаете в чем разница между *.bmp *.tif *.gif *.jpg - смотрите ниже. Наконец, о трудоемкости процесса. Здесь я пытаюсь описать процедуры, позволяющие минимизировать затраты ручного труда и процессы "очистки" и склейки/преобразования в конечный формат - тут многое уже (полу)автоматизировано, особенно на большом числе страниц легко сэкономить много времени. ============================================== Современные сканеры позволяют настроить многие параметры выходного файла, и если Вы можете это сделать - рекомендую для случая, когда сканируется текст и графики-штриховые рисунки выбрать выходной формат *.tif, черно-белый, со сжатием "CCITT Group4" (или по-другому "faxg4") Если иногда требуется вводить имя файла для каждого получаемого файла - попробуйте многостраничный *.tif - подробнее см. ниже Если надо на некоторых страницах точно передать градации серого - придется менять настройки на greyscale и сжатие выбирать ДРУГОЕ - LZW если есть. Но тут и чистить эти страницы, скорее всего, придется индивидуально... ============================================= По опыту под Windows наименее хлопотно сканировать, используя популярную программу ACDSee - она и это умеет! Иногда, правда (со старыми или плохими китайскими сканерами и глючными драйверами таковых) не получается... ну методом тыка - тут как повезет... Сканировать ACDSee следует так - в меню File есть Acquire setup. Введите тип файла TIFF и в опциях - сжатие "CCITT Group4", а в окошке заготовки имени файла сделайте ### - это означает, что автоматически будут генерироваться файлы 001.tif 002.tif 003.tif ... 010.tif ... После чего выбираете Acquire - запускается интерфейс сканера - тут все зависит от модели и извращенности писавших таковой. Мне очень понравился интерфейс Epson Perfection (и в этом он оказался намного лучше Hewlett-Packard - у тех явно непродумано): вы запускаете один раз этот интерфейс, настраиваете разрешение 300 dpi, текст/штрих. рисунок (это у них означает, что будет 1-битовый черно-белый выход, не grayscale), после предварительного сканирования устанавливаете границы поля сканирования и пороговое значение между черным и белым - тут опыт быстро подскажет - можно кстати настройки сохранить! После чего, не выходя из этого интерфейса кладете страницу (разворот книги) на сканер и жмете ввод - изображение будет послано в ACDSee, и та ее примет, сожмет в TIFF и автоматом пронумерует каждую страницу, а Вам остеется только класть очередную страницу на сканер и жать ввод. Кончили серию страниц - Esc. Приступайте к обработке полученных файлов - читайте раздел "Обработка". Если Вам не повезло, и надо МНОГО сканировать, а сканер МЕ-Е-ЕДЛЕННЫЙ - попробуйте, на каком разрешении скорость повышается. Был у меня недавно опыт с одним Hewlett-Packard - так там 300 dpi как ни крути требовало почти минуту на страницу. А при 150 дело шло в 2 раза быстрее! Даже если требовать не черно-белый результат, а grayscale. Выкрутился так - сканировал 150 dpi grayscale. Как ни странно (кто не верит - пусть проверит!) даже маленькие индексы в формулах вроде нормально гляделись и при печати той же любимой ACDSee приличные были за счет сглаживания - видимо, она (ACDSee) тут хорошо написана! Правда, размерчики были у файлов - 1 стр. под 400 Кбайт... Но скорость сканирования в 2 раза выше! И что потом? Потом полученные файлы (а было их сделано около 15 тысяч!) я с помощью Corel Draw 10 (можно и Adobe Photoshop, но у меня не пошел чего-то) в batch-режиме с помощью скрипта поднимал разрешение до 300 (Resample с anti-aliassing - т.е. вроде сглаживание), делал Smoothing и иногда гамма-корекцию (если светловатые тонкие буквы) и затем в черно-белый с должным порогом. Получалось почти (ну, не всегда) неотличимо от того, что бы получилось при 300 dpi black/white! Заодно прочищал черные полосы в середке разворота. Конечно, тут тоже были немалые затраты ручного труда - но и выигрыш был - за короткое время отсканировал много, а потом время разборки с результатом было некритично - а кстати и печатать вполне прилично можно было и не перерабатывая. После переработки объем, занимаемый сканированной книгой, падал раза в 4 - иногда в 10 :-) Возможно, это и для Вас будет намеком - как исхитряться. Одно можно четко посоветовать - для данной книги постарайтесь, чтобы ВСЕ страницы (развороты если влезают в сканер) были ОДИНАКОВО расположены при сканировании - т.е. не плавали влево-вправо-вверх-вниз. Тогда потом (см. последующие readme) намного легче подстроить программы подчистки изображения. О разных форматах файлов Графические файлы бывают в очень разных форматах. Я кратко поясню здесь то, что существенно для нужд сканирования. Не более! 1) Графические файлы по самой грубой классификации бывают двух типов: - с потерей качества (lossy) для повышения коэффициента сжатия - и без потери качества (lossless). Типичный представитель первого типа - формат *.jpg (JPEG) Он просто замечателен для ЦВЕТНЫХ изображений и дает малый размер файла при довольно (на мой взгляд непрофессионала) высоком качестве цветопередачи. Но это - за счет некоторой "размытости" изображения, несущественной при ПЛАВНЫХ переходах. Для ЧЕРНО-БЕЛЫХ изображений с четкими мелкими деталями - а именно такие, как правило, и нужны при сканировании книжек - дает очень плохое размытое изображение! НИ В КОЕМ СЛУЧАЕ не применяйте для черно-белого формата! Если вы сканируете в черно-белом режиме (см. ниже) - советую TIFF с сжатием "CCITT Group4" (или по-другому "faxg4") - совершенно без потерь качества и с хорошим сжатием (от 20 до 50 килобайт на стр.) Это как раз для нас - типичный представитель второй группы - lossless compression. И есть форматы вообще без сжатия - таковы *.bmp (как правило, иногда это не так, но скорее всего ) Вряд ли они разумны - расходуется до 1 мегабайта на стр. при 300 dpi и черно-белом изображении - не говоря о 600 и градациях серого... Про этот и др. устаревшие форматы типа *.pcx говорить не будем - ничем особо хорошим они не отличаются. 2) Второй существенный параметр, по которому следует различать графические файлы - количество информации об одном пикселе (точке) изображения - бывают 1-битовый (соответственно могут различить только белый и черный цвет точки) или скажем 8-битовые (соотв. 256 градаций серых оттенков от чисто черного до чисто белого). Далее идут форматы, отводящие по несколько байт на пиксел - они соответственно идут на передачу цвета. Для нужд сканирования - за особым случаем, когда надо сканировать цветные иллюстрации - мой опыт подсказывает, что максимум, что МОЖЕТ БЫТЬ НАДО - чисто черно-белый формат (1-битовый) для текста и графиков-чертежей и изредка 8-битовый для черно-белых (точнее, в оттенках серого) фотографий. Заметим, что указанный выше TIFF с сжатием "CCITT Group4" - ТОЛЬКО для 1-битовых черно-белых (по определению). Это опять-таки не означает, что TIFF (что расшифровывается как Tagged Image File Format) подходит только для черно-белых форматов - см. ниже. 3) Третий существенный параметр - "разрешение", т.е. количество точек на дюйм ("dots per inch" = "dpi") которое сканер различает (генерирует) при проходе по странице. Иногда (а именно в TIFF практически всегда!) этот параметр ХРАНИТСЯ в самом файле - и может НЕ СОВПАДАТЬ с реальной по какой-либо причине типа Вашей ошибке при установке параметров сканирования. Иногда этот параметр чисто формален - особенно при выставлении файла в интернет - тут это просто играет роль при определении размера (ширины и высоты изображения в пикселах). С (моей :-) практической точки зрения для сканирования текста/формул/графиков/штриховых рисунков 300 dpi - самое то. Эстеты говорят, что 600 - ну намного лучше... Попробуйте сами - если времени не жалко - при сканировании соответственно вам придется ждать у сканера в 2 раза дольше! О размере файла умолчим - да и при сжатии это не столь радикальная разница. ============================== Теперь о деталях и некоторых нюансах. И здесь верны (ну, почти..) два принципа: 1) Все современные форматы - гибки и перестраиваемы. Тот же TIFF на самом деле внутри может вполне сжимать изображение по алгоритму JPEG - и тогда практически дает то же. что и *.jpg Следует иметь в виду, что в одном файле может быть НЕ ОДНА, А МНОГО страниц! Особенно в *.tif! Как узнать? Ну, например, популярная - и я ее рекомендую - универсальная гляделка графических файлов ACDSee это выводит в строке информации о файле - типа 117@2500x3647 т.е. 117 страниц в файле при размере каждой в 2500 на 3647 пиксела. В этой гляделке на след. страницу в данном файле легко перейти, нажав Shift-PageDown. Можно получить информацию о типе сжатия и др., запросив "File info" в меню - или воспользовавшись для *.tif утилитой tiffinfo.exe 2) в общем, любой формат легко преобразовать в любой - причем "пакетно", т.е. много-много файлов за раз - в той же ACDSee это стандартная функция - доступна через меню. Не забудьте установить способ сжатия - если преобразуете в TIFF или качество (количество теряемой информации) при преобразовании в jpg! Так что если Ваш сканер выдает только *.bmp - не стоит отчаиваться - это легко ужать и преобразовать в *.tif - см. выше! Далее можете обрабатывать полученные файлы способами и утилитами, описанными в других readme. Если Ваш сканер выдает многостраничный *.tif (чтобы добиться минимального числа нажатий на клавиши для каждой страницы - я такое встречал в ранних версиях Epson perfection) - тоже не проблема - многостраничные *.tif можно быстро и без хлопот разбивать на отдельные страницы - см. описание утилит для работы с *.tif. Можно и наоборот - склеивать одностраничные *.tif в один многостраничный - см. там же. Короче - выбираете описанные выше три основных параметра - название формата не играет большой роли. ================================================ Нюансы формата TIFF: 1) возможна многостраничность 2) различные методы сжатия. Из них отбросим метод JPEG - он с потерей качества. Остаются - из наиболее часто встречающихся а) "CCITT Group4" (или по-другому "faxg4") - ТОЛЬКО для черно-белых! другие сжимать не может. Если вы по недосмотру преобразуете какой-то другой формат в TIFF с этим сжатием - будет черно-белый с "dithering" - т.е. градацтт серого будут передаваться мелкими точками различной величины и частоты расположения. Хорошо видно при большом увеличении - и иногда очень неплохо смотрится даже для форографий б) "CCITT Group3" (или по-другому "faxg3") - по моему, просто устарел и оставлен для совметимости. Существенно хуже сжимает. Тоже только для черно-белых. в) "run-length" -сжимает плохо. г) LZW (Lempel-Ziv-Welsh)-сжатие. Подходит и для черно белых (уступая при этом "CCITT Group4" процентов 30) и для grayscale - но поскольку владельцы патента требуют деньги за его поддержку - сейчас западные программисты его избегают. Российские, понятно, до таких "благ цивилизации" не доросли - используют, он же описан... д) "без сжатия" - ну ясно и без комментариев... Так что не удивляйтесь, если одно и то же изображение при одном и том же расширении *.tif может иметь радикально различающийся размер. Еще один нюанс TIFF: поскольку это Tagged Image File Format, там бывают разные "тэги". нестандартные, которые, к примеру, несут информацию о программе-создателе данного файла - и некоторые другие программы считают такое (наверно, зря :-) недопустимым, ругаются, не обрабатывают и т.п. Кроме того, столкнулся с тем, что та же популярная на российских просторах довольно мощная Corel Draw еще и корежит информацию о разрешении - поработал в этой программе с файлом, почистил - а он ЯКОБЫ стал не 300 dpi а 95 (разрешение экрана), в остальном смотрится как конфетка - ну что тут поделаешь, и на старуху бывает проруха... И это потом больно бьет, когда работает программа типа tiff2ps - она честно прочитает эту иныормацию о файле и такое разрешение и сделает - точнее буквы станут огро-о-омными и на странице А4 уместится еле 1/5 исходного изображения... Можно насильно устанавливать разрешение в таком случае. Я включил разные утилиты для работы с TIFF-форматом. Они скомпилированы из свободной билиотеки libtiff - пользуйтесь на здоровье! Если Вы решили следовать моим скромным советам и выбрали в качестве формата (первоначального) сканированных файлов формат tif - для обработки есть масса утилит. 1) утилиты, скомпилированные из свободной библиотеки libtiff (version 3.5.7 - август 2003) - режут многостраничный ТИФ на одностраничные и др - см в директории TIFF-tools 2) Написанная на их основе cleantif.exe (писал не я ...) - в поддиректории cleantif Данная программка примененная к ОДНОМУ одностраничному b/w или grayscale ТИФу позволит почти полностью удалить черную полосу - где скажете или где сама найдет. Описание там же. Все вышеуказанные программы настроены на обработку ОДНОГО файла. Что делать для нескольких СОТЕН? Ответ прост - ДОС/ВИНДОУЗ умеет запускать ЦИКЛЫ - пример в директории cleantif - файл ca.bat поочередно обработает ВСЕ *.tif в данной директории (т.е. где Вы его запустите), настройки очистки - во вспомогательном файле cl.bat который и вызывается ca.bat для обработки каждого конкретного файла. Почищенные файлы будут в поддиректории (автоматически созданной) "cleaned" Более подробно о разных пакетных обработках этим способом - напишу чуть позже в директории bat-awk-utils В частности - как бороться с тем, что цикл for (до сих пор - ПОЗОР Биллу Гейтсу & Co!!!) дает в качестве аргументов в цикле по именам файла лишь их КОРОТКИЕ имена. Ну самое простое - не делайте длинных :-) Достаточно 1.tif, 2.tif... Впрочем, эта проблема уже решена! (попозже опишу) 3) В одном из форумов недавно выставлена свободная и КРУТАЯ программа под виндоуз "Skan Kromsator". С разрешения автора здесь - линк на его страницу: http://bolega.hotmail.ru/ Краткое описание - в файле ScanKromsator Возможности - совершенно фантастические! Обработка файлов Здесь я описываю, как потом склеить полученные сотни одностраничных ТИФФов в один файл и преобразовать в тот формат (pdf, djv...) который Вам по душе. 1) если речь идет о djv - можно воспользоваться утилитами из свободной библиотеки djvlibre - ну об этом попозже... А самое простое - доверьтесь профессионалам - пошлите на бесплатную службу http://any2djvu.djvuzone.org/ Описание деталей (спасибо castleofmusic) - в файле any2djvu.txt 2) pdf - тут у меня опыт имеется... есть отличная быстрая программка tiff2pdf - вот только демо-версия позволяет за один раз переводить в ПДФ не более 150 страниц... (Ау, кто бы взломал :-) - см. tiff2pdfWin32.zip Предпочитающим законно свободные программки - в TIFF-tools есть tiff2ps.exe - тут без ограничений - но в Postscript. После чего - если Вы имеете полный Acrobat с Distiller'ом - переводите указанным Distiller'ом в ПДФ - кстати ужатие небольшое по сравнению с результатом работы tiff2ps.exe если версия Acrobat до 6 - а вот после (сам пока не пробовал - но видел результат) еше сожмет раза в 3, но будет читаема только Acrobat 5 или 6 (и медленнее...) Если же у Вас такового дорогого софта нет - есть свободный ghostscript - тут придется подробнее объяснять... Чуть позже =================== ВАЖНОЕ ОБЩЕЕ ЗАМЕЧАНИЕ - об именах ТИФ-файлов. Если Вы их нумеровали 001.tif, 002.tif, 003.tif, ...- молодцы, все указанные выше программы их упорядочат ПРАВИЛЬНО - а вот если 1.tif, 2.tif, .., 10.tif, ... - надо прибавить впереди должное количество нулей. На то - простейший 00.bat в данной директории - он дотянет 1.tif до 001.tif и 10.tif до 010.tif соответственно. Если страниц более 999 и надо побольше нулей - просто добавьте еще одну строку (ту же самую, что и первые две) в 00.bat ============== Хватит для начала - подробности позже :-) О Кромсаторе Вот кратко - из описания автора (v1.0, вскорости ждем вторую верси): основные функции: - конвертация формата и DPI изображений; - разворот изображений на 90, -90, 180 градусов; - автоматическое исправление наклона страниц; - разрезание разворотов страниц на две отдельные страницы; - автоматическое определение ширины книги и приведение размеров всех ее страниц к единому значению, автоматическое исправление полей страниц; - убирание лишних или <�грязных> полей; - убирание черных полос на развороте страниц; - полу-автоматическая чистка черных полос (как правило, на развороте), <�налезающих> на текст (в настоящей версии функция работает, но не совсем стабильно, поэтому вынесена в пост-обработку); - гибкие правила по именования выходных файлов (добавление префикса, нумерация с шагом, нумерация начиная с определенного значения); - smart-сортировка имен исходных файлов: правильно расположит файлы типа [xxx]1.tif, [xxx]1[x].tif, [xxx]2.tif, :, [xxx]100.tif, : где [xxx] - произвольный опциональный префикс, [x] - произвольный опциональный однобуквенный суффикс; - высокая скорость обработки: от 7 (600dpi - исходный, 300dpi - конечный) до 30 (300dpi-300dpi) разворотов страниц в минуту. (Данные для P-IV-2400). Поддерживаемый формат исходных файлов: BMP (сжатый и несжатый), TIFF (все форматы включая LZW), GIF. Поддерживаемый формат конечных файлов: BMP (несжатый), TIFF (сжатый и несжатый). Поддерживаемое значение DPI исходных файлов: все. Поддерживаемое значение DPI конечных файлов: 300, 600, а также режим сохранения DPI равным его значению в исходном файле. ===================================== Кое-что о второй версии: bolega ----------------------------------------------------------------------------- Всем привет. Выложил на http://www.bolega.hotmail.ru/sk.zip новую, 2-ю версию. DLL-ки остались прежними. Их можно не качать. Документация будет готова чуть позже. Очень много новшеств, я ранее часть из них описал. Исправлен ряд багов. Может теперь генерировать PDF-файл с очень сильным сжатием. Зацените. Теперь поддерживает на входе многостраничные TIFF-файлы. Если надо, могу и на выходе сделать. Удаление черных налезающих на текст полос на развороте включается опциями "Clear shadow" (отдельно для левой и правой половинок). Алгоритм расчитан именно на налезающий текст, поэтому использовать его просто так не рекомендую. Также может удалять серпообразные пятна на развороте по самому верху и самому низу страницы, образующихся при сечении режущей линией скобообраной черной полосы. После работы алгоритма от полосы может остаться небольшой мусор. Это нормально, т.к. алгоритм работает очень деликатно, стараясь правильно отделить тень от слившейся с ним буквы. В options есть параметр, влияющий на эту "деликатность". Лучше оставить его auto. Но мало ли. Чем он больше, тем лучше будет зачишена тень, но тем больше возрастает шанс повредить часть буквы. Добавил страничку опций параметр "Sand despeckle". Там же среди других есть "Convert to BW threshold". И наконец, зацените новый алгоритм поворота. Старый тоже остался. Для применения нового нужно включить опцию "Antialias deskew" (включена по умолчанию). Формат файла задания пока совместим в обе стороны. В окне ViewResult теперь при изменении картинки выдается предупреждение. Если это будет раздражать, можно включить (в контекстном меню) режим autosave. ================== Ещё рекомендации по сканированию (в дополнение к уже имеющимся) 1) Если книга в приличном состоянии, я ее сканирую в 600 dpi черно/белый TIFF. Причины, почему не 300 такие: а) При разрешении 300 мелкие символы читаются плохо, и тонкии линии на некоторых глифах рвутся. б) При последующем повороте строк дополнительный алиасинг гораздо менее заметен при 600 dpi. 2) Пользуюсь сканером Canoscan 3000F. Он позволяет сосканировать лист А4 в 600 dpi за 25 секунд, еще 15 секунд уходит на откат головки, перекладываение книги и т.д. Наверное, есть и более быстрые сканеры. При сканировании пользуюсь интерфейсом сканера, он сам автоматически нумерует файлы (если ему указать имя файла foo.tif, и такой файл уже есть в директории, то он даст имя foo0001.tif, foo0002.tif и т.д.). При появлении первой страницы с номером, запоминаю разницу между номером файла и номером страницы, после чего время от времени проверяю, что разница не изменилась (чтобы не пропустить страницу). Еще о выборе сканера - стоит проверить ахроматизм его линзы. Многие дешевые сканеры имеют неахроматическую оптику, что проявляется в цверном ореоле вокруг букв (если сканировать в цвете). При чернобелом сканировании это эквивалентно потере фокусировки (эффективное разрешение падает до 100 dpi, и многие тонкие элементы становятся не видны). 3) Держу наготове специальные салфетки для протирки стекла. Годятся салфетки из нетканого материала, слегка смоченные средством для мойки стекол. Кроме борьбы с трухой, помогает увеличить срок жизни сканера (порой в книгах попадается и песок, царапающий стекло). 4) Перед сканированием раскрываю книгу посередке, и определяю область сканирования. Тут возможны два варианта: а) Книга не умещается в разворот на стекле. Тогда она сканируется по одной странице, каждый раз с поворотом на 180 градусов. Нижним обрезом упираю книгу в край стекла, боковой обрез укладывается с небольшим (0.5-1 мм) отступом от края. Зона сканирования выбирается так, чтобы в вертикальном направленнии оба ее края совпадали бы как можно точнее с обрезами книги (таким образом удается уменьшить разницу в вертикальном положении четных и нечетных страниц после разворота). В горизонтальном направлении зона выбирается с запасом в пару сантиметров. б) Книга умещается в разворот. В таком случае зона сканирования выбирается точно по верхнему и нижнему обрезу, а по горизонтали оставляется запас. Книга упирается верхним обрезом в край стекла. 5) Для большинства книжек нужен груз, позволяющий прижать бумагу к стеклу ровно. Я иногда прикрепляю груз к книге скотчем; при этом крышка сканера остается все время открытой. С грузом важно не переборщить (иначе прогибается стекло, и нарушается фокусировка - особенно этим страдают сканеры с высоким разрешением, у них меньше глубина резкости). Стоит провести несколько опытов, сканируя мелкие узоры (например, микротекст на банкнотах ;) на середине стекла в grayscale - это позволяет оценить расфокусировку. 6) Обработку сканов я делаю в несколько этапов, с сохранением промежуточных версий. Прежде всего, если сканировалось по одной странице, то в Кромсаторе выделяю все нечетные файлы и разворачиваю их, с сохранением. Потом в Кромсаторе обрезаю края (и разрезаю страницы пополам, если это разворот). Затем выравниваю строки (в последнее время пользуюсь не Кромсатором, а своей программой, скоро она будет доступна всем). После этого в Кромсаторе выставляю поля (иногда автомат сбивается на нестандартных страницах, и их приходится обрабатывть специально). На последнем этапе дочищаю книгу вручную (в частности, убираю библиотечные штампы). 7) Наконец, создаю Zip-архив из директории с полученными файлами и отправляю его на дежавюку. |
«Научно-производственный центр «Космос-2» Настройки программы на работу с базой данных производятся с помощью файла Control. Ini, расположенного в той же папке, где установлена... |
Программа инсталляции Flexpde размещает значок Flexpde на ваш рабочий... Вы можете запустить Flexpde просто, дважды нажимая этот значок. Альтернативно, Вы можете использовать Проводник Windows, чтобы переместиться... |
||
Т. В. Чубарова Данный сборник представляет материалы конференции,... Нуждается ли рынок в нравственности? Взаимодействие экономики, политики, культуры и морали в переходных обществах 22 |
Игити гу-вшэ Поэтому персонажами той истории, которую мы собираемся выстроить, будут не столько Лоренцо Валла, Бартоломео Фацио, Джовиано Понтано... |
||
Инструкция к выполнению экзаменационной работы по Географии Открыть в папке «Мои документы» папку «Экзамен по географии» и создать папку «География фамилия экзаменуемого», все созданные файлы... |
Инструкция по работе с системой fare family / branded fares в асб... Вал код валюты, в которую пересчитываются все выводимые тарифы (по умолчанию валюта,в которой работает пульт) |
||
О здоровье и об устранении главной причины болезней глава 1 Это дает возможность лучше понять механизм воздействия радиации на здоровье человека, определить правильную стратегию лечения облучённых,... |
Руководство участника форум-выставка «Импортозамещение в туризме» Мы рады, что Вы воспользовались уникальной возможностью представить Вашу продукцию и услуги на Форуме-выставке «Импортозамещение... |
||
«ЦветыЭкспо-2017» 12-14 сентября 2017 г. I павильон, залы 3, 4 Вашу продукцию и услуги на Международной выставке цветов, растений, техники и технологий в цветоводстве и ландшафтном дизайне «ЦветыЭкспо-2017».... |
Руководство участника ярмарки 20 23 марта 2018 года Москва, вднх... Вы воспользовались уникальной возможностью представить Вашу продукцию и услуги на Федеральной Оптовой Ярмарке товаров и оборудования... |
||
Ежедневный мониторинг сми 4 июля 2011 Программа модернизации железнодорожной инфраструктуры Монголии нуждается в наполнении инвестиционными проектами |
Какая прошивка на станции кх-тd1232 нормально поддерживается 74 системниками? Атс и сразу же донабор. Если прибавить время в коде 206 до 1500 мс., то успеваешь иногда набрать городской номер и тогда все работает.... |
||
Инструкция по размещению архива на сайте Для создания архива выберите... Для создания архива выберите необходимые документы и поместите их в одну папку (Рис. 1) |
Алгоритм работы с программой algo2000 (Машина Тьюринга) В папке algo2000 содержится одна папка и три файла algo2000: значок программы, файл справки и исполняемая программа (приложение) |
||
Конфигурирование разделов на жестком диске ... |
Работает официальный сайт Работает официальный сайт для просмотра баланса карты каждого ученика по программе «Школьное питание» через Интернет |
Поиск |