Что такое обработка данных для включения в интернет каталог архивных документов
Рекомендации по созданию Интернет-каталогов архивных документов
ФЕДЕРАЛЬНОЕ АРХИВНОЕ АГЕНТСТВО
Рекомендации по созданию
Интернет-каталогов архивных документов
Москва, 2012
Рекомендации по созданию Интернет-каталогов архивных документов / И.В. Караваев, Н.В. Глищинская. Москва, 2012. – 29 с., илл.
Ключевые слова: интернет-каталог, электронный каталог, база данных, архивный проект.
В рекомендациях описаны виды электронных каталогов, структура каталогов, уровни и структура описания (состав полей) информации, возможность представления цифровой копии архивного документа с привязкой к описанию, приводятся практические примеры.
© Федеральное архивное агентство, 2012
Содержание
Введение
Размещение электронных ресурсов в сети Интернет значительно расширяют аудиторию потребителей архивной информации. Зачастую пользователи не знают, где хранятся документы по интересующей их теме. Оказать помощь в поиске необходимой информации могут размещенные на архивных сайтах путеводители, каталоги, тематические подборки, аннотированные описи, базы данных, Интернет-выставки и прочие вспомогательные материалы. Перечисленные электронные ресурсы могут не только предоставить информацию о содержании фондов архива, но и обеспечить доступ непосредственно к самим архивным документам.
Электронный каталог – информационная система, содержащая сведения об архивных документах, которые могут включать поисковые данные документа, текстовую описательную информацию, образы документов, сведения о систематизации и другое. Электронный каталог, являющийся составной частью информационно-справочной системы архива или нескольких архивов, обеспечивает оперативность получения информации широкому кругу пользователей сети Интернет.
Виды электронных каталогов:
тематический справочник или указатель, например, Межархивный указатель «Документы по истории Отечественной войны 1812 г.», размещенный на портале «Архивы России» (http://1812.rusarchives.ru/);
справочник или указатель по видам документов архива, например, Видеокаталог РГАКФД (http://rgakfd.ru/catalog/video/), Кинокаталог РГАНТД (http://rgantd.ru/ecfilm/catalog.htm);
медиаресурс – электронный каталог с образами документов, например: Тематический каталог фото- и видеодокументов «Победа. 1941–1945», размещенный на портале «Архивы России» (http://victory.rusarchives.ru/), Электронный фотокаталог РГАКФД (http://rgakfd.altsoft.spb.ru/start.do), Коллекция фотодокументов РГАНТД (http://rgantd.ru/elcatalog/photocat.htm).
1. Интернет каталог – разновидность веб-приложения
Не будет преувеличением сказать, что бурное развитие сети Интернет оказало огромное влияние на многие сферы человеческой деятельности. И, конечно, Интернет способствовал поистине революционным изменениям в области разработки и применения программного обеспечения. Появилась новая категория приложений, специально разработанных для сети Интернет и учитывающих особенности серверов Web, т.н. веб-приложения. Примеры таких приложений хорошо известны каждому пользователю Сети – это многочисленные Интернет-магазины, поисковые и справочные системы, сервисы для Интернет-телефонии и обмена сообщениями в режиме реального времени, системы хранения и передачи потокового видео через Интернет и т.д.
Для веб-приложений характерно взаимодействие с пользователем посредством Интернет-браузеров, таких как Internet Explorer, Opera, Mozilla, Chrome и др. При этом доступ к веб-приложениям осуществляется так же, как и к обычным статическим страницам HTML – по URL-адресу.
Однако по принципам своей работы веб-приложения отличаются от статических страниц HTML, т.к. при помощи веб-сервера они способны обращаться к различным активным объектам, сервисам и системам, таким, например, как базы данных (БД). Так, в ответ на запрос, введенный пользователем в окне браузера, веб-сервер способен «на лету» сформировать отчет, содержащий запрашиваемую информацию, и отобразить его на экране пользователя. При этом для получения данных веб-сервер генерирует специальный запрос к базе данных.
Важно отметить, что веб-приложения способны работать не только в Интернете, но и в локальных сетях организаций. Использование браузера на компьютере конечного пользователя в качестве основного средства доступа к базам данных значительно уменьшает затраты на сопровождение крупных локальных сетей. При этом не только упрощается процедура установки программного обеспечения на рабочие станции локальной сети, но и облегчается сопровождение баз данных и других электронных систем организации, работающих централизованно на специально выделенных серверах.
Архивные Интернет-каталоги тоже можно представить как одну из разновидностей веб-приложений, а это значит, что для их разработки и эксплуатации прекрасно подойдут технические и программные средства, применяемые для других веб-приложений.
Итак, «сердцем» любого Интернет-каталога, в том числе, архивного, является база данных, а в качестве средства доступа к информации, содержащейся в базе данных, обычно используется специальное веб-приложение, взаимодействующее с пользователем посредством любого популярного веб-браузера. С точки зрения пользователя, такое веб-приложение выглядит как обычный веб-сайт, содержащий разнообразные элементы управления (см. раздел № 8 «Выбор элементов управления для создания запросов к БД») для формирования запросов к БД.
2. Базы данных и системы управления базами данных
Появление баз данных стало самым важным достижением в области программного обеспечения. Базы данных лежат в основе информационных систем, и это коренным образом изменило характер работы многих организаций. Что же такое – база данных?
База данных – это совместно используемый набор логически связанных данных (и описание этих данных), предназначенный для удовлетворения информационных потребностей организации; это единое, большое хранилище данных, которое однократно определяется, а затем одновременно используется многими пользователями – представителями разных подразделений.
Программное обеспечение, с помощью которого пользователи могут определять, создавать и поддерживать базу данных, а также осуществлять к ней контролируемый доступ, называется системой управления базами данных (СУБД). Основная задача СУБД – предоставление пользователю базы данных возможности работы с ней, не вникая в детали работы всей системы на уровне аппаратного обеспечения.
Почему используются системы с базами данных? Какие преимущества получает пользователь, работая с такими системами? Отметим лишь некоторые из них:
Компактность. Появляется возможность минимизировать или исключить полностью создание и ведение объемных картотек на бумажных носителях.
Скорость работы. Выборка, сортировка и обновление данных с помощью компьютерной системы происходит гораздо быстрее, чем аналогичные действия, производимые человеком вручную.
Снижение трудозатрат. Отпадает необходимость длительной и однообразной работы над картотекой вручную.
Актуальность информации. За счет автоматизированных методов работы с информацией, содержащейся в БД, пользователю в любое время доступны самые свежие данные.
Удобство управления данными, за счет их нахождения в единой централизованной БД.
Организация онлайн-доступа к БД посредством сети Интернет дает еще одно крайне важное преимущество – расширение круга потенциальных пользователей БД до практически неограниченного количества за счет снятия географических и временных ограничений.
Каким же образом можно превратить локальную архивную базу данных в Интернет-каталог, работающий в режиме доступа 365/24? Эту задачу можно решить, по крайней мере, двумя способами:
преобразованием существующей локальной архивной БД (например, в формате MS Access или MS Excel) в формат, пригодный для функционирования в рамках веб-сервера, как правило, это MySQL;
формированием новой архивной БД «с нуля», непосредственно в сети Интернет, с помощью созданного для этой цели веб-интерфейса.
В рамках настоящих Рекомендаций мы будем рассматривать первый из упомянутых способов, т.е. преобразование локальной БД в Интернет-каталог.
3. Разновидности баз данных
Существуют следующие разновидности баз данных:
Древовидные (реестр Windows, файловая система FAT, язык разметки XML и др.) – здесь информация хранится в древовидной структуре, и доступ осуществляется через «путь», т.е. последовательное указание всех узлов от корневого до нужного. Например: «С:\My_docs\My_pictures\Me.jpg». Недостатками этого способа хранения данных являются медленный поиск, если не известен путь, и низкая устойчивость к повреждениям структуры. Преимущество – возможность хранить в классифицированном виде разнородную информацию и осуществлять быстрый поиск при наличии ключа.
Сетевые базы данных (например, сеть Интернет) – представляющие собой совокупность узлов, обособленных друг от друга и содержащих определённую информацию. Каждый узел содержит некоторое количество ссылок на другие узлы, по которым и ведётся поиск. Недостатки – очень сложный и долгий поиск, возможно получение неполной информации или даже невозможность ее поиска вообще. Преимущества – легкое добавление любой разнородной информации, самая высокая стабильность структуры из всех систем.
Реляционные базы данных (от англ. relation – связь). Для простоты можно считать, что реляционная база данных – это набор двумерных простых таблиц. Недостатки реляционных баз данных – хранение только однородной информации, сложности при добавлении новых структур и взаимоотношений; информация, хранящаяся в такой БД, должна быть в нужной степени абстрагирована. Преимущества – прежде всего, очень высокая скорость поиска – по этому параметру у реляционных баз данных нет конкурентов, высокая стабильность работы, широкий выбор программного обеспечения для их разработки и поддержки, удобство использования для различных практических задач.
4. Реляционные базы данных – основа Интернет-каталогов
Итак, реляционную базу данных можно упрощённо представить как набор взаимосвязанных таблиц. Таблица – это основной структурный элемент базы данных. Структура таблицы состоит из столбцов и строк, которые принято называть, соответственно, «полями» и «записями». Таблицы в реляционной системе являются логическими, а не физическими структурами. Это означает, что таблицы реляционной БД – это просто абстрактный способ представления физически хранящейся в базе данных информации. Такой подход значительно упрощает восприятие информации конечным пользователем, от которого оказываются скрыты сугубо технические детали вроде размещения записей в БД, их последовательность, кодировки данных, индексы и т.п.
Поля в БД всегда имеют уникальные имена (по которым их можно идентифицировать) и хранят данные только какого-либо одного типа, например, числа, текстовые строки, дату, время и т.п. Создавая таблицу, необходимо указать тип каждого из полей, заранее определившись, какого рода данные будут в них храниться. В случае архивной базы данных структура таблицы может быть следующей:
Порядковый номер – целое число;
Название архива – строка (100 символов);
Сокращенное название архива – строка (10 символов);
Номер фонда – число или строка (до 255 символов), в зависимости от способа нумерации;
Наименование фонда – строка (> 255 символов);
Архивный номер документа – число или строка (до 255 символов), в зависимости от способа нумерации;
5. MySQL – «посредник» между базой данных и пользователем
Что такое MySQL? MySQL – это наиболее популярная система управления базами данных с открытым исходным кодом. «Открытость» означает, что вы можете бесплатно устанавливать, запускать программу и модифицировать ее исходный код (который, как и ее саму, можно загрузить из сети Интернет). Аббревиатура SQL расшифровывается как Structured Query Language (структурированный язык запросов) – язык, применяемый для взаимодействия с большинством существующих баз данных.
MySQL – это реляционная система управления базами данных (РСУБД). С технической точки зрения MySQL – программа, управляющая файлами, которые составляют базу данных, но часто термин «база данных» применяется как к самой программе, так и к этому набору файлов. БД, как упоминалось выше, это обычная совокупность взаимосвязанных данных (текстовых, числовых, двоичных), за хранение и организацию которых отвечает СУБД. Подробную документацию по MySQL можно найти, например, на сайте разработчика этой СУБД: http://dev.mysql.com/doc/, правда, на английском языке. Также существует большое количество «неофициальных» сайтов о MySQL со справочной информацией на русском языке.
Программные инструменты для работы с MySQL содержатся во многих распространенных языках программирования, например, в PHP, Perl и Java. Именно с помощью этих инструментов обеспечивается доступ к БД из веб-приложений и веб-сайтов.
6. Преобразование базы данных из формата MS Access в формат MySQL
Рассмотрим случай использования СУБД MS Access 2007 и БД, состоящей из 1 таблицы.
Откройте базу данных MS Access. Перейдите в режим просмотра таблицы.
На вкладке «Внешние данные» нажмите кнопку «Excel» (экспорт в таблицу MS Excel). В появившемся окне укажите имя файла для сохранения таблицы (например, test.xlsx) и формат файла (Книга Excel (*.xlsx)). Чуть ниже, в разделе параметров экспорта должна быть проставлена только одна галочка: «Экспортировать данные с макетом и форматированием». Нажмите «OK». После того, как появится окно с сообщением, что экспорт успешно завершен, окно MS Access и, соответственно, базу данных MS Access, можно закрыть.
Теперь нужно преобразовать получившуюся таблицу из формата MS Excel 2007 (в нашем случае, test.xlsx) в обычный текстовый файл (*.txt), содержащий специальную разметку.
Для этого хорошо подойдет условно-бесплатная программа Exportizer Pro.
Откройте Exportizer Pro, далее из меню откройте диалог «Select data source». В этом диалоговом окне укажите имя файла, который нужно открыть (больше в этом окне ничего менять не нужно) и нажмите «OK».
После этого в окне программы вы увидите загруженную таблицу с данными из БД.
Теперь данные из этой таблицы нужно преобразовать в текстовый формат. Для этого выполните команду меню «Export > Export to File or Database» (или просто нажмите кнопку «Export Data» на панели инструментов). Вы увидите диалоговое окно с большим количеством вкладок и настроек. Выберите вкладку «Text», в поле «File» укажите имя будущего текстового файла (например, test1812.txt), а также выполните все остальные настройки в соответствии с рисунком, расположенным ниже, и нажмите кнопку «Next»:
Field separator: Other («|» – вертикальная черта);
Line terminator: Windows;
Source records per target row: 1;
Record range: Full table;
Column range: All columns;
Export mode: Replace+Insert (означает, что если текстовый файл с таким именем уже существует, то он будет перезаписан).
После нажатия кнопки «Next» вы увидите еще одно диалоговое окно с заголовком «Step 2 of 2. Specify field mappings». В этом окне можно ничего не менять, а можно, например, поменять названия полей таблицы и их взаимное расположение, при необходимости. В нашем случае ничего менять не нужно. Просто нажмите кнопку «Export». Вы увидите быстро увеличивающийся счетчик обработанных надписей, а после этого окно с сообщением типа «10550 records have been exported to file C:\test1812.txt». Это означает, что преобразование завершено успешно.
Теперь окно программы Exportizer Pro можно закрыть.
Итак, мы преобразовали информацию из таблицы MS Access в текстовый файл, причем столбцы исходной таблицы в каждой строке этого файла отделены друг от друга вертикальными чертами (можете убедиться в этом, открыв test1812.txt в любом текстовом редакторе, например, в «Блокноте»).
Создайте на сервере базу данных и таблицу внутри этой базы, например, с помощью графической серверной оболочке phpMyAdmin. Обратите внимание, что вы должны создать таблицу с тем же количеством столбцов, что и у исходной таблицы MS Access! Каждому столбцу вновь созданной таблицы присвойте те же имена, что и у столбцов таблицы MS Access, а также корректный тип данных (например, для полей, в которых будут числа – INT, для полей с текстовыми строками – TEXT).
Замечание: названия столбцам таблицы необходимо давать на английском языке, а не на русском.
Также помните, что имя создаваемой таблицы и имя созданного ранее текстового файла должны совпадать.
Теперь нужно экспортировать данные из получившегося текстового файла в таблицу MySQL, созданную на сервере.
Это можно сделать через SSH соединение. SSH (Secure SHell) – это программа для входа и выполнения команд или программ на удаленных компьютерах, а также для передачи файлов с одного компьютера на другой. SSH обеспечивает строгую проверку подлинности и безопасности соединения по незащищенному каналу связи и поэтому очень удобна для удаленного администрирования веб-серверов.
Подключиться к серверу по протоколу SSH можно с помощью любого SSH-клиента. Например, бесплатной программой PuTTY (вы можете скачать ее по адресу: http://the.earth.li/
Запустив Putty, вы увидите окно «PuTTY Configuration», в котором нужно указать лишь адрес сервера, к которому вы хотите подключиться. Напишите имя сервера в поле «Host Name (or IP address)» и нажмите «Open». Откроется окно, в котором нужно ввести сначала имя пользователя (login as), а затем и пароль (password). Если доступ с такими учетными данными разрешен, вы увидите запрос командной строки SSH.
Окно ввода имени сервера для подключения
Окно ввода имени пользователя и пароля
Запрос командной строки SSH
Скопируйте текстовый файл, полученный в пункте №3 на сервер, это можно сделать с помощью любой программы, поддерживающей доступ к серверу по протоколу FTP (от англ. File Transfer Protocol – протокол передачи файлов), например, FreeCommander.
Теперь в командной строке PuTTY перейдите в каталог, куда вы только что скопировали текстовый файл, и выполните следующую команду (будьте внимательны, каждый символ имеет значение!):
Замечание: вводить эту команду нужно именно в командной строке SSH, а не в режиме монитора SQL – там она просто не выполнится, будет появляться сообщение об ошибке.
После ввода этой команды потребуется ввести пароль для доступа к базе данных, соответствующий указанному в команде имени пользователя.
Если вам требуется помощь по синтаксису команды mysqlimport, то нужно ввести следующую команду:
Если ошибок при экспорте не было, вы увидите надпись вида: «Records: 10550 Deleted: 0 Skipped: 0 Warnings: 0»
Проверьте содержимое созданной на сервере таблицы с помощью phpMyAdmin – вы должны увидеть там всю информацию из исходной таблицы MS Access.
В отдельных случаях вы можете заметить, что текст в некоторых ячейках новой, преобразованной в формат MySQL, базы данных «обрезан», часто прямо посередине слова, хотя в исходном файле *.xlsx в этой же ячейке текст присутствует полностью, без сокращений. Как нетрудно убедиться, длина такого «обрезанного» текста составляет всего 255 символов. В случае преобразования базы данных, содержащей архивные сведения, такая ситуация, безусловно, неприемлема, так как БД может содержать, в том числе, поля с описаниями архивных документов, длина которых может значительно превышать 255 символов.
В чем же причина этой проблемы и как ее разрешить?
Оказывается, проблема возникает еще на этапе преобразования БД из формата MS Excel в текстовый файл.
По умолчанию, драйвер, отвечающий за преобразование файла, сначала считывает первые 8 строк исходной таблицы и, если не обнаруживает полей, содержащих более 255 символов текста, считает, что все поля исходной таблицы также содержат не более 255 символов. Даже если в 9 записи таблицы будет поле длиной более 255 символов, оно будет усечено до 255 символов.
Решение вытекает из самой проблемы. Если исходная таблица содержит поля с текстовыми данными, длина которых более 255 символов, необходимо перенести одну из записей с «длинным» полем в самое начало таблицы. Например, если первое «длинное» поле встречается в 25 записи, переместите эту запись, сделав ее, например, второй или третьей от начала таблицы.
Если в таблице есть несколько «длинных» полей, например, описание документа и URL документа, необходимо переместить в начало таблицы каждую из строк, содержащих «длинные» поля.
Ниже – исходная таблица, «длинные» поля есть в строках № 16, 19, 20. Если преобразовать таблицу в таком виде, эти поля будут обрезаны до 255 символов.
Как создать электронный архив
В этой статье мы расскажем, как создать электронный архив документов.
Зачем нужен электронный архив?
Практически в каждой организации в результате деятельности формируется архив бумажных документов. Как правило основу его составляют бухгалтерские, договорные и внутренние документы. Эти документы собираются в папки и хранятся в соответствующих отделах или в специально выделенном помещении архива.
Основная проблема бумажных архивов — это поиск нужных документов, а также контроль их наличия. Не имеет значения, какое количество электронных документов при работе с деловыми партнёрами вы принимаете или отправляете. Их в любом случае придётся где-то хранить, поскольку того требует закон.
Счета и накладные могут стать предметом изучения контролирующих органов, которые имеют право запрашивать их для проверки, например, подтвердить факт поставки, оплаты, сверить данные книг покупок и продаж для обоснования вычета по НДС.
Чем больше документов и работающих с ними сотрудников, тем больше времени тратится на поиск нужных документов, тем больше потери организации от неэффективного использования времени сотрудников.
В дополнение к этому сейчас очень активно начинает развиваться электронный безбумажный документооборот и нужно обеспечить хранение электронных документов в архиве.
В архиве могут находится как бумажные, так и электронные документы по одной и той же тематике. Эта гибридность также добавляет проблем при поиске и доступности документов.
Что делать?
Единственным решением данной проблемы является перевод бумажных документов в электронный вид и создание электронного архива документов организации.
Это подразумевает следующие операции:
В результате вы должны получить информационную систему, которая позволит находить нужные вам документы по любому набору условий к атрибутам реквизитам документов. Так, например, вы сможете находить все документы определенного типа за определенный промежуток времени от определенного контрагента.
При выборе системы электронного архива документов важно сделать правильный выбор.
Критерии выбора электронного архива
Мы считаем, что такими критериями для выбора решения являются:
Без минимизации времени на ввод и поиск документов нельзя добиться экономического эффекта от создания электронного архива документов.
Поскольку именно сокращения времени на поиск документов при минимизации затрат на ведение и сопровождение электронного архива, дает экономический эффект.
Если интерфейс будет неудобный и непонятный, а обучение будет занимать много времени, то сотрудники просто не будут пользоваться системой, саботируя её использование под любым предлогом.
Важным фактором является интеграция с бухгалтерской системой: она позволяет минимизировать работы по атрибутивному описанию скан-копий документов.
Существуют следующие способы атрибутирования скан-копий документов:
Использование систем распознавания является достаточно дорогим удовольствием, при этом качество распознавания сильно зависит от качества исходного документа. Обычно системы распознавания окупают себя при достаточно больших объемах документов, измеряемых 4-х значными цифрами и выше.
Однако использование ручного ввода документов в архив в свою очередь увеличивает затраты на его ведение и таким образом уменьшает выгоды от его использования.
Интеграция архива с бухгалтерской системой, позволяет полностью устранить задачу ручного ввода реквизитов документа в архив: эти данные автоматически попадают в архив из бухгалтерской системы в момент проведения или принятия к учету документов.
В EnDocs.Cloud реализован специальный API для интеграции с учётными системами. Для платформы «1С: Предприятие 8» из коробки, доступен готовый модуль EnDocs.Cloud для 1С, позволяющий работать с архивом и скан-копиями документов в интерфейсе 1С.
EnDocs.Cloud является облачным решением, что позволяет работать с вашим архивом документов онлайн. То есть, получить защищенный доступ к вашим документам 24 часа в сутки, в любом месте где есть соединение с Интернет. Особенно это важно для распределенных организаций.
Создать электронный архив документов с EnDocs.Cloud очень просто:
1. Подключитесь к сервису на сайте EnDocs.Cloud (https://EnDocs.Cloud). Есть бесплатный тариф.
И это все! Вы можете сканировать документы в папки на диске вашего компьютера. Вы можете подключить электронную почту в личном кабинете и отправлять на неё документы, которые отсканировали при помощи вашего смартфона или получать на электронную почту документы от ваших поставщиков. Все документы будут автоматически загружаться в электронный архив. А еще можно будет согласовывать договора и счета, вести кадровый ЭДО, регистрировать входящую и исходящую корреспонденцию, автоматизировать множество других внутренних процессов.
В чём выгода?
Основная выгода от создания электронного архива документов состоит в существенном уменьшении затрат времени на поиск документов и контроле их наличия.
Сейчас в организациях, для того чтобы найти, например, бухгалтерский документ нужно дойти до бухгалтерии, объяснить бухгалтеру какой именно вам нужен документ, подождать пока бухгалтер его найдет, сделать ксерокопию документа и вернуть оригинал на место. При этом, от работы отрываются как минимум 2 человека, да и бухгалтер может быть занят другой важной работой, что тоже увеличивает время.
Например, по оценке PwC:
— 3% документов создаются ошибочно,
— 5-15% рабочего времени — чтение и анализ информации,
— До 50% (!!) времени уходит на поиск данных и документов
Выводы сделайте сами!
Мы перечислим несколько преимуществ использования EnDocs.Cloud для организации электронного архива:
И это лишь часть преиму ществ, а есть ещё и другие существенные плюсы, такие как резервирование информации, ко нтроль за её использованием, повышение дисциплины при работе с документами и др.