Итак, как быстро, дешево и сердито сделать многостраничный PDF со сканированных изображений? С одной стороны, очень просто. А с другой, происходят странные подводные камни. Поэтому опишу процедуру, которая работает. Здесь мы расскажем о программах работы с файлами PDF в среде Linux, если вас интересует объединение PDF файлов в один в любой среде и без дополнительных программ, об этом очень хорошо рассказано на другом сайте.
1. Прежде с всего следует иметь те изображения, из которых мы будем делать многостраничный PDF. Лично я сканирую нужный документ и храню страницы в формате PNG: для сканов документов и снимков экрана он лучше подходит, чем JPEG (расширение .jpg), поскольку лучше сохраняет тонкие штрихи, а, следовательно, надписи. Но JPEG или TIFF подойдут так же.
2. Может оказаться, что страницы документа отсканировалась криво, с частичным поворотом или даже перспективным искажением. Так практически всегда бывает, если сканируется толстая книга или документ, скрепленный степлером. Читать такой скан будет не слишком приятно, поэтому желательно сначала исправить все подобные искажения и убрать из сканов визуальное мусора в виде дефектов сканирования (тени, кляксы на страницах и т.д.). Для этого существует специальные программы. Положите все сканы в один каталог, откройте его в программе - и дальше легко разберетесь, поскольку программа имеет довольно интуитивный графический интерфейс. На выходе вы получите из ваших сканированных изображений новые откорректированые изображения в формате TIFF (расширение .tif).
С программой может возникнуть разве, что одно недоразумение: можно ошибиться при выставлении полей (берегов) документа, так что все содержание окажется не посередине страницы, а, например, упрется в верхний ее край. Поля в программе легко выставляются на каждой странице вручную с помощью мышки, но закономерность их изменения не совсем интуитивная. Если у вас верхнее поле выходит слишком мало, то следует стараться не передвинуть внешний контур страницы (как представляется очевидным), а потянуть его нижнюю рамку вниз. Это не переместит эту рамку, а увеличит ее по вертикали относительно центра страницы.
3. Если удаление мусора в программе было не до конца успешным, можно открыть нужный выходной tif-файл в GIMP или любом другом графическом растровом редакторе и почистить вручную. Заодно можно подкорректировать контраст и другие параметры изображения.
4. После того, как работа с отдельными страницами будущего многостраничного документа завершена, можно переходить к его созданию. Проще всего сделать это с помощью программы ImageMagic. Она содержит в своем составе команду convert, которая позволяет изменять формат файла и создавать многостраничные pdf файлы. Для такого создания следует открыть любой эмулятор терминала, перейти в нем в каталог, где лежат ваши выходные tif-ы, и выполнить команду convert * .tif назва_файла.pdf
На этом этапе могут вылезти две подводные камни.
Во-первых, чтобы страницы в результовному pdf шли в задуманном порядке, следует заранее их правильно назвать. И здесь кроется небольшая загвоздка, поскольку программы, которые работают в линуксе с файлами, сортируют их по названию только в алфавитном, но не в алфавитно-цифровом порядке. Это означает, что для них каждая цифра в названии файла - это обычный знак, а не часть многозначного числа. Поэтому если вам нужно соединить в один файл, скажем, двадцать страниц, и они называются 1.tif, 2.tif ..., 20.tif, у вас после страницы 1 пойдут страницы 11-19, а только потом - страницы 2 и 20, после чего - уже страницы 3-9. Чтобы этого не произошло, следует ставить ноль в начале однозначных номеров в названиях файлов, то есть, называть файлы 01.tif, 02.tif и т. д.
Во-вторых, для конвертации ImageMagic требует большого количества памяти. У меня при четырех гигабайтах RAM (с которыми система, правда, почему видит лишь 3,5) команда convert уже на двух десятках файлов терпит неудачу. Поэтому приходится делать несколько pdf-ов, и уже их собирать в один большой. Для такого сбора нескольких pdf-ов в один ImageMagic не годится: он создан для обработки растровых, а не векторных файлов, поэтому в готовых pdf-ах он предельно снижает разделения (разрешение) при конвертации. Поэтому я пользуюсь программой PdfTk-QGUI. В ней есть надо зайти в пункт меню и в появившемся окне, добавить нужный список pdf-ов кнопкой «+» (Add File(s)), нажать «Ok», после чего выбрать для сохранения каталог и название результовного pdf-а.
5. Собственно, это все. Но что делать тем, кто не любит или боится командной строки? Можно сделать из многих изображений единственный pdf в программе с графическим интерфейсом? Да, можно. Например, в программе Phatch. Ее интерфейс, к сожалению, не очень интуитивный, но разобраться можно. Для начала надо нажать кнопку «+», чтобы добавить действие. Нам нужна единая действие «Сохранить». При ее добавлении в ее названием появятся настройки. Нужно выбрать название результовного файла, его тип (pdf, в нашем случае), каталог, куда его сохранять, и его параметры. После этого надо нажать кнопку с колесиками в меню (она же «Выполнить действие»), выбрать входные файлы (tif-и от ScanTailor-а, если мы им пользовались) или папку с ними, нажать кнопку «Пакет», а в новом окне после этого - «Continue» (у меня не переведено). Помните: если памяти недостаточно, программа создаст pdf, но он будет неполный или поврежден. Поэтому, возможно, придется создавать несколько pdf-ов, как было выше описано для ImageMagica.