====== Как отсканировать отчет ====== == Выбор сканера == Сейчас в продаже появилось очень много дешевых сканеров, однако не любой аппарат сгодится для сканирования отчетов. Все бытовые сканеры можно разделить по типу сканирующего сенсора на два типа. С сенсором CIS и сенсором CCD. Сканеры с сенсором CIS появились в продаже не так давно. Они легкие, тонки и очень дешевые. Можно найти сканеры ценой меньше тысячи рублей. Однако с ними не так все хорошо. Несмотря на общую привлекательность сканирующая головка таких скнеров имеет очень маленькую глубину резкости. Т.е. текст со стороны переплета, где отчет плохо прижат к стеклу сканера будет нечитабелен. Такие сканеры покупать не следует. Сканеры с сенсором CCD производятся уже довольно давно. Раньше они были с галогеновой подсветкой, сейчас - со светодиодной. Такие сканеры намного толще моделей с CIS сенсором, потому что в сканирующую головку встроена оптическая система. Однако Глубина резкости этих сенсоров позволяет сканировать даже очень толстые отчеты. Еще следует обратить внимание на наличие на сканере кнопок и возможность запрограммировать сканер таким образом, чтобы при нажатии на кнопку он автоматически сканировал страницу и сохранял в указанную папку. Это сэкономит лишние телодвижения при больших объемах сканирования. Крышка сканера должна откидываться на 180 градусов, либо вообще сниматься. [{{:images:img000004ac.jpg?200}}] Некоторые модели сканеров специально позиционируются для сканирования книг. Их стекло влотную подходит к краю поверхности, чтобы книгу можно было приложить как можно плотнее к стеклу. Например, сканеры серии opticbook фирмы plustek. Однако такие сканеры дороже. Я купил себе самый дешевый сканер Epson V33 за пару тысяч рублей и вполне им доволен. Следует отметить, что у этой модели через пару месяцев службы появляются тонкие цветные полосы на сканированом изображении, но сканированию текста и фотографий из отчетов это не сильно мешает. Отдельно следует упомянуть сообщество [[http://diybookscanner.org/|diybookscanner.org]] Эти ребята из подручных средств собирают отличные сканеры для оцифровки книг, не уступающие фирменным. Очень интересно ознакомиться вот с этим видео [[http://www.youtube.com/watch?v=a4-qMc2QSOw&feature=g-like&context=G2eb41c9ALT2coMgAAAA]] == Сканирование == При сканировании надо найти компромисс между качеством и скоростью. Люди, увлекающиеся качественно оцифровкой книг рекомендуют сканировать отдельно текст, отдельно рисунки и отдельно фотографии. При этом разрешения сканирования следующие: Текст (даже с примечаниями мелким шрифтом) - 400 dpi. Рисунки, в случае, когда сканируются отдельно от текста - минимум 300 dpi. Географические карты и фотогарфии - 300-600 dpi. Это рекомендуют профессионалы, я же вполне довольствуюсь сканированием всего в разрешении 300 dpi в формат tiff. Это занимает сильно больше места чем JPG, но зато в этом формате не происходит потеря информации об изображении. Например, один лист А4 в tiff занимает 25 мегабайт. Естественно, такие изображения надо потом обработать и сконвертировать для уменьшения объема. == Обработка == Здесь можно пойти двумя путями. Первый - самый простой путь. Пережать все сканы в JPG, установив степень сжатия на уровне 60-80%, проверить, что текст и фотографии остались читабельны и на этом остановиться. Для массовой конвертации файлов хорошо подходят бесплатные программы FastStone image viewer или IrfanView. Второй путь - обработать сканы, чтобы они выглядели более опрятно и занимали меньше места. Существует несколько программ для обработки сканов - это ScanTailor, ScanKromsator и ArtScan. ScanKromsator очень сложный, навороченный и тормозной. Я при обработке исрользую ScanTailor. Это очень простая и доступная программа для полуавтоматической обработки сканов. Обработка страниц состоит из нескольких шагов: - Разворот листов - Обрезка полей и корешков - Коррекция угла наклона - Выделение полезной области - Установка полей - Вывод Подробнее следует рассказать про вывод. Программа умеет выводить только в формат tiff, однако тифф тиффу рознь. Существует три режима: - Черно-белое изображение. Картинка переводится всего в два цвета. Черный и белый. Этот режим очень хорошо подходит для страниц с текстом, черно белых схем, кроков. При этом разрешение вывода следут поставить в 600 dpi даже если вы сканировали текст в 300 dpi. Тем самым потерю информации в цвете вы скомпенсируете увеличением разрешения. Если при переводе в черно-белый режим мелкий текст становится нечитаемым, либо теряются детали рисунков и схем, то следует использовать режим "Цветной-серый", либо "смешанный". На выходе получеатся tiff файл всего с двумя цветами. Такой файл занимает меньше места чем любой другой формат будь то JPG или PNG. Получившийся tif следует еще сконвертировать одной из вышеупомянутых программ в формат tif с компрессией G4FAX. Это сжатие без потерь уменьшит его размер еще на 30 процентов. К примеру страница А4 в разрешении 600 dpi с ч-б текстом в tiff занимеат около 150кБ. В JPG эта же страница занимает больше мегабайта из-за того, что JPG не умеет сжимать двухцветные изображения. Они их переводит в 24 битный цвет и потом сжимает. В PNG эта страница занимает в два раза больше места. - Цветная фотография, рисунок или фотография в отттенках серого, карта. Для вывода таких изображения следует выбрать режим "Цветной-серый". При этом для уменьшения размера выходного файла можно поставить 300 dpi вместо 600. На выходе все равно получется Tiff, но с 24-битным цветом внутри. Такие файлы следует после сконвертировать в JPG. - Когда на странице содержится текст и что-либо из пункта 2, то проще всего сделать также. Но в ScanTailor существет специальный режим "смешанный" для таких страниц. При этом становится доступна вкладка "зоны картинок". В ней можно обозначить зоны картинок, которые программа должна оставить в полном 24-битном цвете. Остальные участки страницы будут переведены в черно-белый цвет. Никаких выигрышей в сжатии изображений такой подход не дает. На выходе все равно будет 24-битный тифф, который лучше всего пережать в JPG. Часто попадаются очень старые или плохо отсканированные отчеты. В них при переводе страницы в черно-белый режим получается плохо-читаемый текст. Такие страницы лучше всего оставить в цвете и сжимать в JPG. При проведении ряда тестов формат PNG оказался плохо пригоден для сжатия отчетов. При сжатии цветных изображений он проигрывает JPG, а при сжатии черно-белых Tiffу. == Сылки == * [[http://www.djvu-soft.narod.ru/scan/|Подборка материалов и инструментов для сканирования и обработки книг]] * [[http://www.djvu-soft.narod.ru/st_ref.htm|Руководство по программе ScanTailor]] * [[http://scantailor.sourceforge.net/?q=ru/about| Сайт программы ScanTailor]] * [[http://faststone.org/|Сайт программы FastStone Image Viewer]] * [[http://www.irfanview.com/|Сайт программы IrfanView]]