Что такое потоковое сканирование документов
Массовый ввод документов в СЭД
Модуль «Потоковое сканирование» оптимизирует технологию ввода большого объема бумажных документов в СЭД. Модуль решает следующие задачи:
Модуль «Потоковое сканирование» облегчает работу ввода бумажных документов в СЭД.
Как это работает?
Работа в одно нажатие. Все действия происходят автоматически, сотруднику необходимо только загрузить бумажные документы в сканнер и нажать кнопку, остальное система сделает самостоятельно.
Присваивание штрихкода документу. Сгенерированный штрихкод может быть распечатан как на самом документе, так и на отдельной его странице. Если документ уже имеет штрихкод стандартного формата, система распознает его и может использовать для своей идентификации.
Распределение документов в базу данных происходит автоматически. Отсканированные файлы формируются в формат PDF или другой требуемый формат и размещаются в соответствующие регистрационные карточки согласно штрих-коду.
Распознавание электронных документов
Модуль «Потоковое сканирование» позволяет распознавать и переводить в другие форматы документы уже имеющиеся в СЭД.
Данный процесс может быть расширен и скорректирован бизнес-логикой заказчика.
Технологическая обработка документа
Ввод графического или текстового формата
Сканирование возможно как графического образа документа, так и текстовый его формат. Что облегчает дальнейшую работу над документом. Распознавание и перевод текста документа реализован с помощью Websio Plugin и ABBYY FineReader.
Графический формат
Графический образ документа возможно конвертировать в следующие форматы: pdf, tiff, jpeg, png, bnp, gif. Реализована функция выбора размеров изображения при сканировании, а также его дополнительные настройки (глубина цвета, тип сжатия и т.п.).
Текстовый формат
При применении опции распознавания текста документы могут быть сохранены в различных форматах: txt, rtf, xls, xlsx, docs, html, xml, pdf. Также реализована возможность менять размер страницы, кодировку и прочие свойства документа при его сканировании. PDF-формат возможно сохранять как в виде текста, так и изображения.
Распознавание языка документа
Модуль «Потоковое сканирование» распознает документы более чем на 50 языках, в том числе: русский, английский, китайский, немецкий, французский, итальянский, испанский, шведский, финский, украинский и другие.
Преимущества использования системы массового ввода документов «Потоковое сканирование»:
Варианты поставки
Для интеграции в существующую инфраструктуру:
Для организации потокового ввода
Дополнительно к основному блоку включает средство интеграции с программой для потокового сканирования документов ABBYY Scan Station.
Для организации распознавания сканированных образов в автоматическом режиме
Дополнительно к основному блоку включает средство интеграции с программой для распознавания текста, которая переводит изображения документов и любые типы PDF-файлов ABBYY FineReader Corporate.
Поточное сканирование документов
Поточное сканирование документов, сканирование анкет — один из способов быстрой обработки результатов анкетирования широкого круга респондентов.
Содержание
Этапы процесса
Сканирование бумажных документов
Эффективность данного этапа определяется в большей степени качеством используемого оборудования.
Современные поточные сканеры оснащены системой автоматической подачи документов, что позволяет сократить ручной труд и достигнуть скорости оцифровки до 200 изображений в минуту на один сканер.
Распознавание информации
На этапе распознавания используются программные OCR компоненты. Качество результирующих записей зависит от степени готовности анкеты к машинному чтению и тщательности предварительной настройки программного обеспечения.
Верификация данных
Производится автоматическая верификация полученных после распознавания данных. Наиболее частые проверки — проверка на ожидаемый тип данных (число/чекбокс/строка), проверка на присутствие значений. Все проблемные места, отмеченные на данном этапе маркируются для передачи на стадию коррекции.
Коррекция данных
Оператор обрабатывает информацию полученную на стадии верификации данных и вносит изменения в результирующую запись вручную (ввод с клавиатуры, выбор из списка заранее заданных ответов). На данном этапе повторно производится «обучение» программного комплекса. Все накопленные правки анализируются алгоритмами и применяются для дальнейшей работы с данным набором анкет.
Экспорт данных
Оцифрованные структурированные данные выгружаются в необходимом формате для дальнейшего анализа результатов анкетирования.
Производительность систем ввода анкет
На этапах сканирования и распознавания анкет важную роль играет применяемая техника. Использование профессиональных промышленных сканеров и мощных станций распознавания позволит добиться максимальной скорости оцифровки (около 96000 анкет за 1 рабочий день для 1 сканера). Узким местом на пути получения готовой базы данных является этап коррекции данных. Для обеспечения минимального количества ошибок операторы вручную обрабатывают информацию помеченную на этапе верификации данных. Процедура занимает много времени и требует серьёзного специализированного обучения сотрудников.
Оцифровка книг • Поточное сканирование документов
Полезное
Смотреть что такое «Поточное сканирование документов» в других словарях:
Оцифровка книг — Сверхпроизводительный сканер APT BookScan Оцифровка книг это процесс перевода бумажных книг в электронны … Википедия
Система электронного архива — Возможно, эта статья содержит оригинальное исследование. Добавьте ссылки на источники, в противном случае она может быть выставлена на удаление. Дополнительные сведения могут быть на странице обсуждения. Э … Википедия
Adobe Acrobat — Тип Редактор PDF Разработчик Adobe S … Википедия
Сканер изображений — У этого термина существуют и другие значения, см. Сканер. Сканер (ан … Википедия
Планетарный сканер — Планетарный сканер (англ. planetary scanner) разновидность сканера изображений, использующийся для бесконтактного сканирования книг и сброшюрованных документов. Планетарные сканеры широко используются для оцифровки оригиналов,… … Википедия
Оптическое распознавание символов — (англ. optical character recognition, OCR) механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные последовательность кодов, использующихся для представления символов в… … Википедия
Лазерный принтер — 1993 Apple LaserWriter Pro 630 … Википедия
Colortrac — Эту статью следует викифицировать. Пожалуйста, оформите её согласно правилам оформления статей … Википедия
XSane — XSane … Википедия
Ручной сканер — Ручные сканеры устройства, сканирование которыми производится путем проведения по обрабатываемому тексту или изображению. Термин возник с появлением первых монохромных портативных сканеров небольшого размера, функции которых ограничивались… … Википедия
Опция «Поточное сканирование»
Документы загружаются в сканер одной пачкой. В процессе сканирования каждый документ из нее автоматически идентифицируется по штрих-коду. Таким образом, все операции, начиная с загрузки документов в сканер, выполняются автоматически, без участия оператора. Штрих-код для документа может быть сгенерирован системой и распечатан на документе или на отдельном листе бумаги. Если на страницы документов уже нанесены штрих-коды стандартного формата, то они также могут быть использованы для идентификации.
Распознавание отсканированного документа и его сохранение в текстовом виде существенно расширяет возможности по его дальнейшее обработке. К примеру, становится доступным быстрый поиск по содержанию документов. Механизм распознавания текста в опции «Поточное сканирование» базируется на возможностях продукта ABBYY FineReader Engine, по праву считающегося лучшим решением для распознавания.
При традиционном подходе обработка текста при распознавании может занимать достаточно много времени. В опции «Поточное сканирование» предусмотрена возможность параллельной обработки текста на нескольких серверах одновременно, что позволяет получить необходимую скорость обработки.
Процедура регистрации сканируемых документов практически не отличается от стандартной. Опция «Поточное сканирование» запускается непосредственно из используемой системы документооборота.
При покупке системы лицензируется только параметр «количество обрабатываемых страниц в месяц». А дополнительно, для выполнения задач OCR-распознавания текста, в комплект могут быть включены лицензии на использование одного или нескольких экземпляров продукта ABBYY FineReader Engine.
На этапе запуска системы в эксплуатацию предусмотрена возможность вручную управлять работой системы. Это позволяет установить наиболее подходящие параметры настроек и подобрать оптимальное качество сканируемых документов.
Для работы опции «Поточное сканирование» рекомендуется использовать ОС Windows Server 2003 или Windows Server 2008.
Требования к поточным сканерам:
Обязательно – поддержка TWAIN-интерфейса;
Рекомендуется – отсутствие предзахвата второй страницы.
Описание технологического процесса обработки документов
Принцип поточного сканирования основан на том, что на документ при регистрации наносится штрих-код. Потом помеченные штрих-кодом документы сканируются и автоматически (по штрих-коду) связываются с регистрационной карточкой соответствующего документа. Если на сканируемые документы уже нанесен штрих-код стандартного формата, то он также может быть использован для идентификации. Структурная схема работы системы представлена на рисунке.
В процессе сканирования предусмотрены как опция сохранения непосредственно графического образа документа, так и возможность последующего распознавания и сохранения в текстовом формате. Это существенно облегчает дальнейшую работу с документом и расширяет возможности использования поиска. Распознавание и перевод в текстовый формат реализуются с помощью ABBYY FineReader Engine.
Опция «Поточное сканирование» позволяет обрабатывать документы на всех поддерживаемых ABBYY FineReader языках, включая русский, английский, немецкий, французский, испанский, итальянский, шведский, финский, болгарский, венгерский, словацкий, чешский, башкирский, белорусский, казахский, украинский.
Интеграция произвольной СЭД с опцией
Интеграция с опцией «Поточное сканирование» предполагает реализацию со стороны произвольной СЭД только двух функций:
Регистрация и сканирование документов
Регистрация документа, т.е. создание регистрационной карточки, выполняется по обычным правилам используемой системы электронного документооборота. Далее, при обращении к опции «Поточное сканирование», происходят регистрация заявки на сканирование, а также генерация штрих-кода и указание параметров заявки (расположение штрих-кода, требуемые форматы, необходимость распознавания). После того как регистрационная карточка документа будет записана в базу данных, на его первую страницу или на отдельный лист бумаги с помощью принтера наносится штрих-код. Он содержит уникальный идентификационный номер документа и устанавливает правила его обработки. Печать полученного изображения штрих-кода осуществляется средствами системы документооборота. Затем пакет зарегистрированных документов помещается в устройство подачи бумаги сканера, после чего их обработка производится автоматически.
В процессе сканирования, нанесенный штрих-код используется как признак окончания текущего документа и начала следующего, а содержащаяся в штрих-коде дополнительная информация применяется для дальнейшей идентификации обрабатываемого документа.
Результаты сканирования
При сохранении графического образа документов система обеспечивает возможность конвертации изображений сканируемых документов в следующие форматы:
BMP (Windows or OS/2 bitmap);
PNG (Portable Network Graphics);
TIFF (Tagged Image Format);
JPEG (Joint Photographic Experts Group);
PDF (Portable Document Format).
Для каждого из них предусмотрена возможность указывать размеры изображения и дополнительные атрибуты (глубина цвета, тип сжатия и т.п.). Если размер требуемого формата отличается от текущего графического представления, то конвертация может быть выполнена с использованием заданных параметров.
В случае применения технологии распознавания текста, предусмотрена возможность сохранения в большинстве наиболее распространенных форматах файлов*:
Текстовый файл (.txt);
Rich Text Format (.rtf);
Microsoft Word 2007 (.docx);
PDF (Portable Document Format).
Для каждого из них предусмотрена возможность указывать дополнительные атрибуты (размер страницы, кодировка и т.п.). В режиме сохранения в виде PDF-файла возможна как запись в виде изображения, так и в виде распознанного текста.
Таким образом, опция «Поточное сканирование» реализует эффективную технологию преобразования бумажных документов в электронный вид и позволяет в сжатые сроки осуществить переход к работе с их электронными образами. Продуманные настройки, гибкие механизмы управления и подробная документация для разработчиков делают работу с системой удобной и результативной.
*Список поддерживаемых текстовых форматов зависит от возможностей используемой системы распознавания и может изменяться.
Начальник группы телемаркетинга
Закажите демонстрацию системы
Мы свяжемся с вами, проконсультируем по интересующим вопросам, подготовим персональную демонстрацию в удобное для вас время.
Переход на отечественную АИС МФЦ
Скидка на право использования АИС МФЦ «ДЕЛО» при миграции с других решений по автоматизации МФЦ
«Амнистия» по техподдержке
Акция для клиентов, у которых есть просроченная техподдержка до 01.01.2015
Что такое потоковое сканирование документов
Приглашаем компании зарегистрировать свои системы и проекты в TAdviser.
Поточный ввод
Для ввода больших объёмов применяется поточное сканирование документов на специальных промышленных документных сканерах. Обработка в таких системах производится в полуавтоматическом режиме с большой производительностью. Поточное сканирование документов оптимально для создания электронного архива большого объема однотипной информации (бухгалтерской документации, отчётов, заключений, научных работ и т.п.). Потоковое сканирование применяется для оцифровки: бухгалтерских и финансовых документов, договорных документов, юридических документов, архивных документов, каталогов библиотек и др.
Средства Image-processing применяются при автоматическом вводе данных в информационные системы из любых видов документов (удостоверяющих личность, бухгалтерских, юридических и т. д.) для создания электронных архивов с возможностью быстрого поиска нужных документов, при обработке больших массивов данных (перепись населения, единый госэкзамен и пр.), а также для перевода отсканированных документов, изображений и PDF-файлов в редактируемые форматы. внедрение современных средств потокового ввода позволяет снизить затраты на обработку документов более чем на 50%, достичь увеличения скорости ввода в информационные системы в 3—10 раз, обеспечить повышение удобства и качества работы с данными (высокий уровень безопасности конфиденциальных данных, сокращение количества ошибок, связанных с человеческим фактором при вводе данных), оптимизировать бизнес-процессы за счет автоматизации рутинной функции ввода данных и освобождения времени сотрудников на решение профильных задач. При этом средняя окупаемость внедрения составляет от трех месяцев до одного года.
Главными потребителями Image-processing в мире являются крупные организации (немногим более половины объема рынка в денежном выражении), на долю средних предприятий приходится около трети, остальное — малый бизнес.
scan-nn.ru
Сканирование и обработка документов в Нижнем Новгороде
Потоковое сканирование и его особенности
Потоковое сканирование документов — это обработка большого количества листов с помощью промышленных сканеров. Этот процесс осуществляется конвейерным способом на высоких скоростях. Благодаря потоковому сканированию появилась возможность перевести в электронный вид большое количество документов в сжатые сроки.
Требования к документам для потокового сканирования
Надо отметить, что документы, предназначенные для потокового сканирования, должны отвечать некоторым требованиям. Прежде всего важен их размер, цвет и качество. Это связано с тем, что оборудование для потокового сканирования различается по следующим параметрам:
Прежде чем приступать к сканированию, надо удалить с оригиналов все канцелярские принадлежности: скрепки, кнопки и т. п. Такие элементы могут серьезно повредить оборудование для сканирования и сами документы, особенно если оборудование работает в автоматическом режиме.
Если документы, которые необходимо перевести в электронный вид, скреплены между собой, то, возможно, их будет удобнее сканировать на книжных сканерах, чтобы избежать разделения.
Преимущества потокового сканирования
Оснащение делопроизводств в Нижнем Новгороде оборудованием для потокового сканирования сможет обеспечить высокую скорость перевода документов в электронный вид. Такое оборудование обладает следующими преимуществами:
Эффективность оборудования для потокового сканирования напрямую зависит от плотности бумаги и общего состояния листа. Поэтому старые и совсем ветхие документы не стоит подвергать потоковому сканированию, потому что качество электронной копии зависит от контрастности и четкости исходника. Лучше всего для потокового сканирования подходят однотипные документы и документы с удовлетворительной цветовой гаммой и фоном. Например, анкеты, бланки, отчеты, заявления, опросы, чертежи.