Что такое буферизация данных

Буферизация (информатика)

Буферизация (от англ. buffer ) — метод организации обмена, в частности, ввода и вывода данных в компьютерах и других вычислительных устройствах, который подразумевает использование буфера для временного хранения данных. При вводе данных одни устройства или процессы производят запись данных в буфер, а другие — чтение из него, при выводе — наоборот. Процесс, выполнивший запись в буфер, может немедленно продолжать работу, не ожидая, пока данные будут обработаны другим процессом, которому они предназначены. В свою очередь, процесс, обработавший некоторую порцию данных, может немедленно прочитать из буфера следующую порцию. Таким образом, буферизация позволяет процессам, производящим ввод, вывод и обработку данных, выполняться параллельно, не ожидая, пока другой процесс выполнит свою часть работы. Поэтому буферизация данных широко применяется в многозадачных ОС.

Буферизация по принципу своего построения бывает прозрачная (пример — кэширование диска на запись, когда процессы или устройства не подозревают о существовании процедуры буферизации между ними), и непрозрачная, когда сторонам для совершения обмена требуются знания о буфере. Наглядный пример. С бумажными почтовыми отправлениями совершается инкапсуляция в мешки с почтой, далее в вагоны поездов, автомобили и прочие транспортные средства. Отправитель же и получатель обязаны знать только один уровень буферизации — почтовые ящики. Остальные уровни прозрачны для пользователя.

Термины «прозрачная» и «непрозрачная» буферизация не совсем удачны, поскольку могут несколько сбивать с толку. В качестве более удачных можно было бы предложить термины, соответственно, «невидимая» и «видимая буферизация».

Применение буферизации

Различные виды буферизации применяются в компьютерной графике, для обработки и вывода на экран изображений (см. двойная и тройная буферизация), причём они могут быть реализованы как аппаратно, так и программно.

Источник

Буферизация

Термины «прозрачная» и «непрозрачная» буферизация несовсем удачны, поскольку могут несколько сбивать с толку. В качестве более удачных можно было бы предложить термины, соответственно, «невидимая» и «видимая буферизация».

Применение буферизации

Источник

Буферы, потоки и двоичные данные в Node.js

Автор статьи о буферах, потоках и двоичных данных в Node.js, перевод которой мы публикуем, говорит, что он понимает ощущения тех начинающих разработчиков, не имеющих специального образования, которым все эти сущности кажутся таинственными и непонятными. По его словам, это может заставить начинающих отложить в долгий ящик попытки разобраться со внутренними механизмами Node, сославшись на то, что всё это предназначено не для них, а лишь для профессионалов высшего класса, да для разработчиков пакетов. Сегодня он собирается исправить ситуацию и помочь всем желающим вникнуть в суть буферов, потоков и двоичных данных в Node.js и научиться со всем этим работать.

О внутренних механизмах Node

К сожалению, многие руководства и книги, посвящённые Node.js, не уделяют должного внимания внутренним механизмам этой платформы, не стремятся объяснить цель их существования. Как правило, в подобных публикациях всё сводится к рассказам о разработке веб-приложений с использованием готовых пакетов, без углубления в детали их реализации. А кое-где даже беспардонно заявляется, что читателю всё это понимать и не нужно, так как ему, скорее всего, никогда не придётся работать, скажем, с объектами класса Buffer, напрямую.

В официальной документации по Node.js о классе Buffer можно прочитать следующее:

До появления объекта TypedArray в ECMAScript 2015 (ES6), в JavaScript не было механизма для чтения потоков двоичных данных или для выполнения других операций с ними. Класс Buffer был представлен как часть API Node.js, позволяющая взаимодействовать с потоками произвольных двоичных данных в контексте, например, TCP-потоков и операций с файловой системой.

Да уж, если вы раньше не знали тех слов, которые встречаются в этом определении, то вы, возможно, воспримите его как маловразумительную кучу программистских жаргонизмов. Попробуем немного всё это упростить, перефразировав это определение, так, чтобы мы могли работать с ним, ни на что не отвлекаясь. Из этого определения можно вынести следующее:

Класс Buffer был представлен как часть API Node.js, позволяющая работать с потоками двоичных данных.

Итак, теперь всё выглядит немного проще. Но «класс Buffer», «потоки», «двоичные данные» — тут всё ещё слишком много непростых понятий. Попытаемся с ними разобраться, начав с последнего.

Что такое двоичные данные?

Возможно, вы уже знаете о том, что компьютеры хранят и представляют данные в двоичной форме. Двоичные данные — это просто набор единиц и нулей. Например, вот пять разных наборов двоичных данных, составленных из значений «1» и «0»:

Каждое число в двоичном значении, каждое значение «1» и «0» в наборе, называется битом (Bit, Binary digIT, двоичная цифра).

Для того чтобы работать с некими данными, компьютер должен преобразовать эти данные в их двоичное представление. Например, для того, чтобы сохранить десятичное число 12, компьютер должен преобразовать его в двоичную форму, а именно — в 1100.

Откуда компьютер знает, как производить подобные преобразования? Это — чистая математика. Это — двоичная система счисления, которую изучают в школах. Существуют правила преобразования десятичных чисел в двоичные и компьютер эти правила понимает.

Однако, числа — это не единственный тип данных, с которым мы работаем. У нас есть строки, изображения, и даже видео. Компьютер знает о том, как представлять в двоичном виде любые типы данных. Возьмём, например, строки. Как компьютер представит строку «L» в двоичном виде? Для того, чтобы сохранить строку в двоичной форме, компьютеру сначала надо преобразовать символы этой строки в числа, а затем надо конвертировать эти числа в их двоичное представление. Так, в случае с нашей строкой из одного символа, компьютеру сначала нужно преобразовать «L» в число, которое представляет этот символ. Посмотрим, как это делается в JavaScript.

Откройте консоль инструментов разработчика браузера и вставьте туда этот код:

Наборы символов

Наборы символов — это заранее заданные правила, касающиеся соответствия символов их числовым кодам. Существует множество разновидностей таких правил. Например, весьма популярные — это Unicode и ASCII. JavaScript очень хорошо умеет работать с наборами символов Unicode. На самом деле, именно таблица символов Unicode используется в браузере для преобразования символа L в число 76, именно в ней записано соответствующее правило.

Итак, мы видели, как компьютер представляет символы в виде чисел. Теперь поговорим о том, как число 76 превращается в своё двоичное представление. Может показаться, что для этого достаточно преобразовать 76 из десятичной в двоичную систему счисления, но не всё так просто.

Кодировка символов

Так же, как существуют правила, указывающие на соответствие символов их числовым кодам, есть и правила преобразования чисел в их двоичное представление. В частности, они касаются того, сколько бит нужно использовать для представления числа. Это называется кодировкой символов.

Один из наборов правил кодировки символов называется UTF-8. UTF-8 определяет правила преобразования символов в байты. Байт — это набор из восьми битов — восьми единиц и нулей. Итак, для представления кодовой точки любого символа должен быть использован набор из восьми единиц и нулей. Разберёмся с этим утверждением.

Как уже было сказано, двоичное представление десятичного числа 12 — это 1100. Итак, когда UTF-8 указывает на то, что число 12 должно быть представлено восьмибитным значением, это означает, что компьютеру нужно добавить несколько битов слева реального двоичного представления числа 12 для того, чтобы представить его в виде одного байта. В результате 12 должно быть сохранено как 00001100. А число 76 будет выглядеть как 01001100.

Именно так компьютер хранит строки или отдельные символы в двоичном виде. По аналогии с этим, у машины есть особые правила по преобразованию в двоичную форму изображений и видео. Смысл всего этого заключается в том, что компьютер хранит в двоичном виде все типы данных и всё это называется двоичными данными.

Если вам интересны тонкости кодировок символов, взгляните на этот материал, в котором всё это подробно раскрывается.

Теперь мы понимаем — что такое двоичные данные, но что такое потоки двоичных данных, которые мы упоминали выше?

Поток

Поток в Node.js представляет собой последовательность данных, перемещаемых из одного места в другое. Перемещение данных происходит не мгновенно, оно занимает некоторое время. Основная идея тут заключается в том, что потоки позволяют обрабатывать большие наборы данных по частям.

А причём тут буфер? Как он помогает работать с двоичными данными, пребывающими в форме потока?

Буфер

Вспомним, что «поток данных» представляет собой перемещение данных из одного места в другое. Зададимся теперь вопросом о том, как именно эти данные перемещаются.

Обычно перемещение данных производят для того, чтобы, как минимум, их прочитать и сделать доступными для возможной последующей обработки. Скажем, для того, чтобы принять на основе данных какое-то решение. Скорость обработки данных компьютером ограничена, поэтому можно говорить о неких рамках, представляющих минимальное и максимальное количество данных, которое какой-то процесс может обработать за некий промежуток времени. Итак, если скорость поступления данных больше, чем скорость, с которой они потребляются, избыточным данным нужно где-то подождать своей очереди на обработку.

С другой стороны, если система способна обрабатывать данные быстрее, чем они поступают, то некоему количеству данных, прибывших раньше, чем может быть начат очередной сеанс обработки некоего пакета данных, нужно подождать прихода ещё некоторого количества данных, прежде чем все они будут отправлены на обработку.

Эта «зона ожидания» и есть буфер! Физическим представлением буфера может являться пространство в оперативной памяти, где данные, при работе с потоком, временно накапливаются, ждут своей очереди, и в итоге отправляются на обработку.

Всё это можно представить себе в виде автовокзала. На некоторых вокзалах автобусам нельзя отправляться до тех пор, пока в них не наберётся некое количество пассажиров, или до тех пор, пока не наступит время отправления. Кроме того, пассажиры могут прибывать на вокзал с различной скоростью. При этом процесс прибытия пассажиров на вокзал никто явно не контролирует.

В любом случае, пассажиры, которые прибыли раньше отправления автобуса, должны подождать, пока администрация вокзала не решит, что их автобусу пора отправляться. А пассажиры, которые прибыли, когда автобус уже полон, или когда он уже отошёл, должны подождать следующего автобуса.

В любом случае речь идёт о некоем «зале ожидания». Буфер в Node.js играет ту же роль. Node.js не может контролировать скорость поступления данных или время их прибытия. Он лишь может принимать решения о том, чтобы отправить на обработку данные, которые уже прибыли. Если время отправки данных на обработку ещё не пришло, Node.js поместит их в буфер — в «зону ожидания».

Типичный пример, в котором вы можете столкнуться с буфером в действии — это просмотр видео в интернете. Если ваше интернет-соединение достаточно быстрое, скорость потока достаточно высока для того, чтобы немедленно заполнить буфер видеопроигрывателя и позволить проигрывателю показать видео, затем заполнить следующий буфер, и отправить его на просмотр — и так до тех пор, пока передача видео не завершится. Тут показан пример системы, в которой данные прибывают быстрее, чем обрабатываются.

Однако, если соединение особой скоростью не отличается, после обработки первого набора прибывших данных, проигрыватель будет показывать значок загрузки данных, или выводить надпись «буферизация», что означает, что он ожидает прибытия большего количества данных перед началом показа видео. А когда буфер оказывается заполненным и данные, поступившие в него, оказываются обработанными, проигрыватель выводит видео. В процессе проигрывания видео будут прибывать новые данные и ждать своей очереди в буфере. Это — как раз тот случай, когда система способна обрабатывать данные быстрее, чем они в неё поступают.

Если проигрыватель завершил воспроизведение данных, поступивших ранее, а буфер пока ещё не заполнен, надпись «буферизация» появится снова, система будет ждать, когда наберётся необходимое ей количество данных. Собственно говоря, в Node работа с буферами выглядит примерно так.

Из исходного определения буфера можно увидеть, что когда данные находятся в буфере, мы можем с ними работать. Что можно сделать с необработанными двоичными данными?

Работа с буферами

Реализация буфера в Node.js даёт нам массу вариантов работы с данными. Кроме того, можно создавать буферы самостоятельно, задавая их характеристики. Итак, помимо того буфера, который Node.js создаст автоматически в процессе передачи данных, можно создать собственный буфер и манипулировать им. Существуют разные способы создания буферов. Взглянем на некоторые из них.

После создания буфера с ним можно начинать работать.

Итоги

Теперь, когда вы понимаете, что такое «буфер», «поток» и «двоичные данные», вы можете открыть документацию по буферам и осмысленно поэкспериментировать со всем тем, о чём там идёт речь.
Кроме того, для того, чтобы увидеть, как с буферами работают на практике, почитайте исходный код библиотеки zlib.js. Это — одна из библиотек ядра Node.js. Посмотрите на то, как в этой библиотеке буферы используются для взаимодействия с потоками двоичных данных. Тут работа ведётся с файлами, представляющими собой gzip-архивы.

Надеемся, то, что вы вынесли из этого материала, то, что нашли в документации, и узнали, анализируя код, поможет поднятию вашего профессионального уровня и пригодится вам в ваших проектах.

Источник

Система управления вводом-выводом

Буферизация и кэширование

Spooling и захват устройств

Рассмотрим в качестве внешнего устройства принтер. Хотя принтер не может печатать информацию, поступающую одновременно от нескольких процессов, может оказаться желательным разрешить процессам совершать вывод на принтер параллельно. Для этого операционная система вместо передачи информации напрямую на принтер накапливает выводимые данные в буферах на диске, организованных в виде отдельного spool-файла для каждого процесса. После завершения некоторого процесса соответствующий ему spool-файл ставится в очередь для реальной печати. Механизм, обеспечивающий подобные действия, и получил название spooling.

В некоторых операционных системах вместо использования spooling для устранения race condition применяется механизм монопольного захвата устройств процессами. Если устройство свободно, то один из процессов может получить его в монопольное распоряжение. При этом все другие процессы при попытке осуществления операций над этим устройством будут либо блокированы (переведены в состояние ожидание ), либо получат информацию о невозможности выполнения операции до тех пор, пока процесс, захвативший устройство, не завершится или явно не сообщит операционной системе о своем отказе от его использования.

Обработка прерываний и ошибок

Планирование запросов

При использовании неблокирующегося системного вызова может оказаться, что нужное устройство уже занято выполнением некоторых операций. В этом случае неблокирующийся вызов может немедленно вернуться, не выполнив запрошенных команд. При организации запроса на совершение операций ввода-вывода с помощью блокирующегося или асинхронного вызова занятость устройства приводит к необходимости постановки запроса в очередь к данному устройству. В результате с каждым устройством оказывается связан список неудовлетворенных запросов процессов, находящихся в состоянии ожидания, и запросов, выполняющихся в асинхронном режиме. Состояние ожидание расщепляется на набор очередей процессов, дожидающихся различных устройств ввода-вывода (или ожидающих изменения состояний различных объектов – семафоров, очередей сообщений, условных переменных в мониторах и т. д. – см. лекцию 6).

В следующем разделе мы рассмотрим некоторые алгоритмы планирования, связанные с удовлетворением запросов, на примере жесткого диска.

Источник

Буферизация данных в устройствах

Каждое периферийное устройство имеет свою специфику характера обмена данными, определяемую природой его внешней (по отношению к компьютеру) стороны. По характеру обмена устройства можно разделить на три основных типа.

блочные устройства, например, дисковые накопители. Обмен с ними возможен только блоками фиксированного размера — кластерами. При обмене с физическим диском нельзя останавливаться посреди передачи блока.

поточные устройства, примерами которых являются принтеры и сканеры Принтеру посылают поток данных, которые он по мере своих электромеханических способностей выводит в виде изображения на бумагу. Поток можно приостановить в любой момент, а затем продолжить передачу безо всяких побочных эффектов.

регистро-ориентированные устройства, которые, как правило, не являются источниками или приемниками большого объема данных. Программам обычно требуется знать текущее состояние данных устройств или (и) формировать текущие управляющие воздействия. Регистро-ориентированными, как правило, являются различные устройства сопряжения с технологическим оборудованием, компьютеризированные измерительные комплексы, джойстик (программа в определенные моменты опрашивает текущее состояние кнопок и координатных датчиков) и т. п.

Во многих устройствах присутствует смесь этих основных типов, так, даже принтер имеет и регистро-ориентированную часть — кроме приема потока oн передает сигналы текущего состояния (ошибка, конец бумаги).

Весьма важной является задача буферизации данных. Пропускная способность внутренних компонентов современной вычислительной системы — процессора и оперативной памяти — чрезвычайно высока в обоих направлениях (и на прием, и на передачу), а пропускная способность подавляющего большинства внешних устройств на несколько порядков ниже и варьируется в весьма широких пределах. Данные, передаваемые из оперативной памяти на внешнее устройство, поступают с очень высокой скоростью, как правило, в виде пакета. Эти данные целесообразно сохранить во внутреннем буфере контроллера интерфейса и в дальнейшем соответствующими порциями выдать во внешнее устройство. При передаче в обратном направлении данные от внешнего устройства опять-таки целесообразно накопить в буфере контроллера интерфейса, чтобы не «дергать» оперативную память «по мелочам». Когда накоплен значительный объем данных, они все одним пакетом могут быть быстро переданы в оперативную память. Таким образом, для обеспечения минимального времени обладания интерфейсом (а значит и ресурсами оперативной памяти) контроллер соответствующего интерфейса должен работать с использованием буферов.

Буфер представляет собой набор внутренних ячеек оперативной памяти с определенными правилами доступа как со стороны контроллера ПУ, так и со стороны «центра». Размер буфера и дисциплина его обслуживание выбираются, исходя из технических (скорость и объем информации, допустимые задержки) и экономических (цена) соображений.

Для блочных устройств обычно применяют буфер, минимальный размер которого равен размеру блока.

Для потоковых устройств часто применяют буфер с дисциплиной обслуживания FIFO (First In — First Out, первым вошел — первым вышел). Размер такого буфера, как правило, невелик (например, 16, 64 байт). Буфер ставится между «центром» и устройством, с одной стороны он наполняется, с другой — опорожняется. Опорожняющая сторона может извлекать данные из буфера, лишь, когда наполняющая сторона их туда положит. Попытка извлечения данных из пустого буфера является ошибкой опустошения (underflow), попытка помещения в заполненный буфер — ошибкой переполнения (overflow). Логика буфера следит за степенью наполнения буфера и сообщает «центру» о критических ситуациях. Когда «центр» (программа, исполняемая процессором) выводит данные через FIFO, логика следит за снижением наполнения буфера ниже порога опустошения и в случае такового сигнализирует (обычно прерыванием) о необходимости вывода следующей порции данных. Логика также препятствует переполнению, отвергая попытки записи лишних данных и немедленно сообщая об ошибке (обычно через соответствующий программно-читаемый бит состояния). При вводе данных через буфер FIFO его логика следит за наличием свободного места в буфере и при превышении порога заполнения также сигнализирует прерыванием. Аналогично, она не позволяет считать данные из пустого буфера и сообщает об этом соответствующим битом. Также логика буфера должна позволять его очищать по инициативе процессора, сообщать о количестве (или хотя бы о наличии) данных в буфере по запросу процессора. Управляемость порогов позволяет программе в зависимости от внешнего темпа обмена данными, возможностей и текущей загруженности компьютера выбрать оптимальный режим обмена, позволяющий и не «суетиться по мелочам», и не допускать переполненный/опустошений буфера. У двунаправленных устройств, как правило, имеется пара FIFO-буферов (для полного дуплекса), для симплексных устройств достаточно одного.

Буферы современных устройств внешней памяти имеют более сложную организацию, обеспечивающую кэширование данных; однако и они используют вышеописанные принципы организации. Однопортовые буферы большого объема, как уже говорилось, могут вносить заметную задержку. Для потоковых применений (например, для воспроизведения мультимедийных файлов) эта задержка обычно не очень существенна и на производительность не влияет. Однако для приложений «петлеобразного» характера, когда буфер оказывается в цепочке запрос-ответ, его задержка может приводить к снижению производительности. Так, например, передача данных по сети обычно представляет собой последовательность кадров данных, на каждый из которых передающая сторона ожидает кадр подтверждения. Если каждый кадр будет «просиживать» в буфере, естественно, производительность снизится. От этой беды спасает метод «скользящего окна», при котором передающая сторона допускает некоторое отставание приема подтверждений.

Контрольные вопросы

1. Назовите основные функции подсистемы ввода-вывода

2. Назовите основные подсистемы периферийного устройства

3. Охарактеризуйте диапазоны изменения пропускной способности периферийных устройств

4. Дайте определение интерфейса ввода-вывода

5. Сколько интерфейсов должно быть в подсистеме ввода-вывода?

6. Какие существуют типы интерфейсов ввода-вывода?

7. Назовите основные принципы параллельной передачи информации

8. Назовите основные принципы последовательной передачи информации

9. В чем состоят различия между радиальными и магистральными каналами связи?

10. Каковы варианты конструктивной реализации периферийного устройства?

11. Адресация периферийных устройств

12. Каковы функции контроллера периферийного устройства?

Источник