Что такое мультимодальность в биометрии

Мультимодальная система доступа с использованием голосовой биометрии

Человек способен узнать другого по походке, силуэту, прическе, даже почерку и, конечно, по голосу и лицу. Это никого не удивляет и кажется абсолютно естественным. В то же время большинство с недоверием относится к различным системам, которые обещают идентифицировать человека по характерным лишь ему признакам. Мы путаем голоса людей по телефону, принимаем незнакомца за близкого нам человека. Так почему «машина» не может ошибиться и как ей в таком случае доверять?

Михаил Хитров, Генеральный директор ООО «Центр речевых технологий»

Прародительницей биометрических технологий была биология: ученые всегда пытались систематизировать и объяснить различные признаки и свойства особей, проявляющихся в экспериментах. В конце XIX века ученые Фрэнсис Гальтон и Карл Пирсон, изучая закономерности в наследственности людей, применили методы вариационной статистики к анализу различных особей, чем положили начало науке биометрия.

Сейчас биометрией принято считать технологию, при помощи которой можно идентифицировать личность, используя физиологические характеристики человека (отпечатки пальцев, форма ладони, сетчатка глаза, ДНК, голос).

До 2001 года возможности биометрии использовались преимущественно спецслужбами для выявления преступников, защиты государственной тайны и сверхважной коммерческой информации.

Но после череды террористических актов биометрические технологии, что называется, шагнули в массы. Никого не удивляет функция доступа к данным по отпечатку пальца, предлагаемая во многих моделях ноутбуков. Однако до сих пор специалисты по биометрии приводят примеры из фантастических фильмов, чтобы объяснить, каким образом можно использовать эти уже реальные технологии.

Между тем возможности биометрии многогранны: технологии применяются в системах контроля и управления доступом, для организации доступа к личным кабинетам в веб, к персональной информации и к мобильным терминалам.

В качестве идентификатора может выступать лицо, ладонь, отпечаток пальца, радужная оболочка глаза или голос – все то, что ни один человек не может оставить дома или передать кому-то.

Голосовая биометрия

Речь — основное средство коммуникации между людьми. Каждый человек использует голос при общении, как в непосредственном контакте, так и с применением различных каналов связи (GSM, PSTN, VoIP). Запись же речи несет в себе массу информации не только о содержании сообщения, но и о личности говорящего. Именно поэтому речь, а точнее фонетические образцы речи, как биометрические характеристики, эффективно используются в качестве улики в криминалистике с середины прошлого века.

Метод идентификации по голосу основывается на том, что у каждого индивидуума – неповторимый голосовой рисунок, который зависит от пола, физических особенностей типа строения голосовых связок, полости носа, формы рта и т.д., таких характеристик как частота и амплитуда. Точность биометрической идентификации по голосу соответствует 97%.

Среди ключевых достоинств систем голосовой биометрии можно выделить:

Разработанные Центром речевых технологий программные решения для создания и ведения фоноучетов, проведения автоматической идентификации по голосу основываются на таких методах автоматического исследования голоса и речи, для которых не имеют значение язык, акцент диктора и используемый им диалект, а также содержание текста произносимой речи.

Процедура поиска интересующего диктора (идентификации) заключается в автоматическом попарном сравнении «голосовых моделей», в которых закодированы индивидуальные биометрические характеристики голоса и речи дикторов. По результатам сравнения выводится ранжированный список фонограмм, содержащих с указанной вероятностью речь интересующих дикторов.

Поиск осуществляется посредством трех биометрических методов идентификации по голосу с принятием обобщенного решения.

Система автоматически выделяет биометрические признаки голоса и речи дикторов тремя независимыми методами и строит «модели голоса».

Сравнение может производиться:

Система биометрического распознавания речи встраивается в требуемые бизнес-процессы и за считанные секунды идентифицирует и верифицирует голос человека, информируя оператора о положительном или отрицательном результате сравнения.

Идентификация по голосу является бесконтактным, этически корректным методом получения биометрической информации. Взаимодействие с системой идентификации по голосу не вызывают у человека раздражения при снятии «образца» и дальнейшем взаимодействии с ней. Кроме того, голос является единственно доступной биометрической характеристикой для распознавания личности по телефону.

Мультимодальная биометрия

В случае использования одного биометрического признака (одной биометрической модальности) для идентификации личности существует вероятность ошибки системы. Это связано с неправильным использованием системы, условиями окружающей обстановки и качеством образца, например:

Мультимодальные биометрические системы могут устранить многие ограничения унимодальных систем, поскольку одни биометрические признаки компенсируют недостатки, присущие другим признакам.

Достоинства мультимодальной биометрики:

Мультитмодальная система идентификации личности, разработанная ЦРТ, объединила голосовую и лицевую биометрию. В 2011 году дочерняя компания «ЦРТ-Инновации» стала участником кластера информационных технологий инновационного центра «Сколково», где ведет работу над созданием мультимодальных биометрических систем, применяемых в сфере государственной и корпоративной безопасности, а также телекоммуникаций.

Совмещение голосовой и лицевой биометрии является естественным развитием биометрических технологий из-за широкого распространения соответствующих «бимодальных» устройств: сотовые телефоны, коммуникаторы, цифровые фотокамеры и видеокамеры, ноутбуки. Наличие таких бимодальных устройств значительно упрощает процесс получения биометрических образцов, процесс регистрации личности в биометрической системе, понижает стоимость самой системы и т.д.

Метод идентификации по лицу представляется также одним из наиболее социально-допустимых биометрических методов. Эта технология достаточно легко интегрируется в другие существующие системы, так как фотографии являются основным идентификационным форматом для водительских прав, паспортов и иных удостоверений личности. Фото- или видеосъемка лица не представляется раздражающим процессом, потому что люди привыкли к постоянному присутствию видеокамер в офисах, торговых центрах и других общественных местах. Техника сканирования лица в биометрической индустрии занимает второе место после сканирования отпечатков пальцев

Коммерческое применение биометрических технологий в системах доступа

Современный человек вынужден помнить пароли от почтовых ящиков, интернет-магазинов, рабочего места (в среднем на каждого обывателя приходится 4 часто используемых символьных пароля, которые время от времени приходится менять, напоминать себе в почту, записывать где-то, снижая при этом надежность доступа к своим аккаунтам). Вход в офис, спортивный клуб, въезд на парковку ограничивается картой/брелком доступа. Это те артефакты и та информация, которые крайне не желательно забыть или потерять.

Система автоматической биометрической аутентификации по голосу заменяет и дополняет традиционные системы доступа по карточкам, секретным словам и паролям в контакт-центрах, электронной и мобильной коммерции, и других отраслях бизнеса, где необходимо общение с клиентом как личное, так и используя каналы связи. Кроме того, система применима в офисах и на рабочих местах с целью снижения риска утечки и ограничения доступа к коммерческой информации.

В ЦРТ разработана система доступа на основе технологии автоматической идентификации личностей по голосу (см. Таблицу 1). Система может служить как самостоятельное решение, так и совместно с другими биометрическими модальностями и традиционными системами доступа.

Уникальность голосовой биометрии состоит в том, что это единственная биометрическая модальность, которая позволяет идентифицировать человека по телефону, что важно, например, при удаленном доступе к различным услугам, при криминалистической идентификации, где единственным доказательством является запись телефонного разговора подозреваемого. Кроме того, голосовая идентификация не требует применения специализированного дорогостоящего оборудования, нужен только микрофон. При этом по уровню надежности голосовая биометрия не уступает, а по некоторым параметрам превосходит другие системы биометрической идентификации.

Таблица 1. Основные технические характеристики системы доступа с использованием голосовой биометрии

Количество обрабатываемых фонограмм на одном ядре	Не менее 10000 в сутки
Количество хранимых фонограмм в архиве и картотеке с возможностью биометрического и параметрического поиска	До 1 млн
Точность биометрической идентификации	До 97%
Минимальная длительность речевого сигнала для проведения биометрической идентификации	3 сек
Время получения результата биометрической идентификации с момента взятия фонограммы в обработку	Не более 10 сек для монологовНе более 60 сек для диалогов
Время поиска по архиву и картотеке из 1 млн. записей	Не более 60 сек
Тип алгоритма биометрической идентификации	MFCC/GMM/TotalVariability/SVN

Основными сферами приложений биометрической системы доступа являются:

– правоохранительные органы и судебная экспертиза;

– таможенная и иммиграционная службы;

– правительственный и военный сектор;

Основными областями приложений биометрической системы доступа являются:

– контроль доступа в системах информационной безопасности, особенно в государственных и правительственных учреждениях;

– контроль физического доступа в государственных и правительственных учреждениях;

– системы безопасности (физический и удаленный доступ);

– киоски (ATM и авиабилеты);

– телебанкинг и автоматические call-центры.

Применение технологий биометрической идентификации в системе доступа является важным аспектом для обеспечения безопасности на всех уровнях: в каналах связи, в сети Интернет, при физическом доступе на объекты и в помещения. Биометрические решения оперируют неотъемлемыми характеристиками человека, существенно снижая угрозы мошеннические операций в финансовых организациях, несанкционированный доступ в стратегически важные помещения, организации беспорядков на объектах массового скопления людей.

С развитием возможностей общения с клиентом растут возможности бизнеса, но в равной степени возрастает риск мошенничества со стороны клиента или сотрудников. При сборе базы голосов аферистов и автоматической аутентификации голоса рецидива со стороны недобросовестных клиентов легко пресекается. Например, контакт-центр банка или оператора связи в качестве идентификационной информации используют фамилию, имя, отчество, дату рождения и паспортные данные клиента – информацию, которую можно купить и найти в интернете. Воспользовавшись полученной информацией, любой может навредить клиенту компании — блокировать номер телефона, узнать баланс, подключить дополнительные услуги. Для пресечения подобных действий зачастую используется секретное слово, которое также можно передать другому или узнать незаконно. В то время как использование технологий голосовой биометрии позволит не только определить, что голос не принадлежит клиенту, но и сформировать базу голосов злоумышленников, с целью пресечения повторения аналогичных действий.

Решения на основе голосовой биометрии особенно эффективны при внедрении в организациях с развитой сетью филиалов. Общая база биометрических данных сотрудников и клиентов обеспечивает надежную защиту от действий мошенников, кражи пропусков и паролей, и выполнения операций от чужого имени, вне зависимости от того, обслуживаются ли клиенты в филиале предприятия, по телефону или через интернет.

Перед службой безопасности одного из банков была поставлена задача сокращения фрода (например, снятие денег по подложным документам). Изначально была предложена система аутентификации по лицу, но в силу того, что обработкой документов и снятием образца лица при помощи web-камеры занимались операционисты в банке, величина ошибки в среднем составляла 7%. То есть это были «правильные» люди с «правильными» документами, но их фотография была нечеткой или в базе изначально хранилась некачественная фотография.

Для снижения процента ошибки было предложено совместить системы биометрии по лицу и голосу. Надо отметить, что отдельно голосовая биометрия также давала высокий процент ошибки (5%) за счет наложенных фоновых шумов. При совмещении технологий аутентификации лица и голоса аутентификация системы достигла 100%По материалам издания «Директор по безопасности»

Источник

Мультимодальность

Мультимодальность — это феномен, в широком смысле описывающий соединение нескольких модусов восприятия информации в процессе коммуникации. Исследования мультимодальности ведутся параллельно в разных дисциплинарных полях и соответственно акцентируют внимание на разных аспектах этого феномена. К примеру, проблематика мультимодальности получила широкое развитие в лингвистике и теории обучения, в исследованиях медиа, а также в других дисциплинах (O’Halloran & Smith, 2011), каждая из которых фокусируется на разных модусах.

В рамках этой работы нас будет интересовать модус визуального. Традиционно в философии восприятия полагалось, что наши чувства (senses) мономодальны. Считалось, что на визуальное восприятие мало влияют другие модусы, к примеру, такие как звук (Nanay, 2012). Похожая установка существует и в визуальных исследованиях, так как их объектом является визуальное. Однако исследования мультимодальности и эмпирические данные работ по психологии восприятия демонстрируют, что это не так — модальности нашего восприятия находятся в сложном взаимодействии друг с другом (Bertelson & de Gelder, 2004). Принимая это во внимание, нам необходимо пересмотреть отношение к визуальному, а также разобраться в том, что такое мультимодальность и как она может быть полезна визуальным исследованиям.

Прежде чем перейти к истории понятия, следует отметить те рамки термина, которые мы будем использовать в этой работе. Мультимодальность может описывать интеграцию совершенно разных модусов, таких как текст, речь, жест, изображение, звук и даже цвет. В применении к визуальному логично рассмотреть интеграцию визуального с другими модусами, но подобных комбинаций целое множество, поэтому в рамках этой работы мы будем преимущественно рассматривать взаимодействие изображения и текста, несмотря на то, что это не единственная возможная область применения мультимодальности в отношении визуального. Например, исследование взаимодействия звука и изображения может оказаться очень продуктивным для анализа кино. Кроме того, исследования взаимодействия и интеграции чувств (senses) в классическом понимании получили в последнее время развитие термина «мультисенсорность», который требует отдельной словарной статьи (Pink, 2011).

Термин «мультимодальность» впервые появился в 1920-х годах именно как попытка описать феномен психологии восприятия. Было отмечено, что разные источники сенсорного восприятия функционируют не независимо друг от друга, а интегрируются в процессе восприятия информации, влияя как друг на друга, так и на конечный результат. Этот эффект был назван мультимодальностью, так как он описывает множественность модусов восприятия.

Вскоре после этого толчок к развитию понятия был дан лингвистикой. С начала ХХ века традиционная публичная коммуникация усложнилась. Кино повлияло на использование невербальной коммуникации между людьми, а инновации в сфере фотографии позволили воспроизводить ее в маленьких форматах большими тиражами в газетах и журналах. В результате этого изменилась верстка и усилилось значение визуальной коммуникации. Все это было замечено исследователями из разных дисциплин, и лингвистика не стала исключением. Четыре лингвистические традиции ХХ века стали интересоваться модусами восприятия информации, отличными от текстовых. Пражская школа интересовалась фольклором и авангардным искусством, Парижская — массовой культурой и медиа. Американские лингвисты 70-х годов изучали мультимодальность разговорного языка и невербальной коммуникацией. Самая поздняя из всех школ, образовавшаяся в США в 90-х годах, вдохновленная работами Майкла Хэллидея фокусировалась на мультимодальности в обучении, а также первой заинтересовалась мультимодальностью визуального (van Leeuwen, 2011).

Как правило, ранние исследователи мультимодальности были сосредотачивались на изучении отдельных модусов коммуникации и использовали лингвистические модели для их описания, не всегда принимая во внимание их специфику — так появлялись такие понятия как «язык изображений» и «язык музыки». Исключения составляют работы Ролана Барта (1977), который одним из первых обозначил проблематику взаимодействия между изображением и текстом, а также таких представителей хэллидейской школы, как Гюнтер Кресс и Тео ван Лювен, которые занялись разработками «грамматик» визуального (1996). Многие из этих разработок обозначили собой ту рамку мультимодальности, которая представляет собой интерес для визуальных исследований, поэтому стоит рассмотреть их подробнее.

Первая область проблем мультимодальности, связанная с визуальным — это вопрос взаимодействия изображения и текста. Одним из первых этой темой заинтересовался, как уже упоминалось выше, Ролан Барт. Он концептуализировал три способа взаимодействия текста и изображения. Первые два из них рассматривают случаи, когда текст и образ несут одинаковый смысл и могут быть заменены друг другом. Изображение может работать как иллюстрация, подкрепляя информацию, которую передает текст, или же изображение может являться репрезентацией реального мира, определенным способом его зафиксировать. При третьем способе взаимодействия, который стал все более и более распространенным в XX веке, текст и изображение передают разные смыслы, дополняя друг друга и интегрируясь в процессе восприятия — то есть являются примером мультимодальности. В этом случае и текст и изображение — необходимые части одного смысла, которые могут передать его только в соседстве друг с другом, но не по отдельности (Barthes, 1977).

Примером такого взаимодействия в современной визуальной культуре могут быть дорожные знаки, например, знак ограничения минимальной дистанции между автомобилями (Рис.1). Текст и изображение на знаке дополняют друг друга и создают единый смысл. Этот знак является бесспорно визуальным, однако ничего не теряет от того, что часть его смысла передана текстом — более того, эту часть смысла было бы куда сложнее выразить иконически. Такого рода объекты требуют особого подхода и дальнейшего анализа того, в какой момент видения шрифтовые формы становятся считываемым текстом.

Интуиции Барта были впоследствии развиты другими исследователями, которые анализировали связь текста и изображения, их статус по отношению друг к другу, и семантические отношения между ними (van Leeuwen, 2011). Эти подходы, не совсем характерные для визуальных исследований, могут быть полезны при анализе таких примеров визуальной продукции современности как реклама. Образы, используемые в рекламе, играют важнейшую роль в культуре потребления. При этом они существуют в синестезии с текстом, который может быть использован для того, чтобы усилить драматический эффект, или же наоборот работать на контрасте с образом (Sturken & Cartwright, 2017). Рекламные изображения сложно проанализировать, не принимая во внимание феномен мультимодальности.

Один из самых значимых исследователей мультимодальности визуального, Тео ван Лювен, отмечает, что есть и другие визуальные ресурсы, анализ которых может оказаться плодотворным для визуальных исследований (van Leeuwen, 2008). Этими ресурсами могут быть цвет, шрифт или композиция. В таких примерах визуальной продукции, как плакаты или веб-страницы, граница между изображением и текстом размывается. Например, рекламный плакат Дэвида Карсона для Pepsi Cola (Рис. 2) состоит практически только из текста, однако этот текст, несомненно, образный, и своей образностью он обязан композиционному решению. Кроме того, он иллюстрирует другую особенность восприятия текста — текст, образующий форму банки, не предназначен для того, чтобы быть прочитанным от начала до конца, он скорее образует «облако тегов», каждый из которых может быть воспринят зрителем в любом порядке и считан подобно изображениям. Этот феномен, названный ван Лювеном «новым письмом», (van Leeuwen, 2011) можно проследить на примере огромного количества современного визуального материала — например, его демонстрируют ссылки в навигациях веб-страниц. Похожим образом работают логотипы вроде всемирно известного логотипа Coca-cola, который легко воспроизводится в голове по памяти потребителями именно как визуальный объект благодаря особой форме надписи и особому начертанию. Текстовые части веб-страниц и рекламных плакатов являются лишь одним из элементов страницы, связанным с другими элементами благодаря особому композиционному решению, при этом они могут принимать разную форму, благодаря шрифтовому решению, которое также создает определенный тип образности. Подобный мультимодальный подход фокусируется в меньшей степени на смыслах текстов и изображений, а в большей степени на их визуальности, позволяя расширить классическое понимание визуальности.

Термин «мультимодальность», однако, достаточно проблематичен для визуальных исследований по нескольким причинам. Первая причина кроется в том, что, как уже упоминалось, предметом визуальных исследований, является визуальное. Это значит, что визуальные исследования по определению в некоторой степени тяготеют к мономодальности, в то время как идея мультимодальности в том, чтобы рассматривать комплексно несколько модусов коммуникации,следовательно этот тезис в определенном смысле подрывает модус визуального.

Понятие неоднородности визуального Баль по сути своей очень близко идее мультимодальности, однако сам термин в ее работе не используется. Вообще можно заметить, что в рамках визуальных исследований есть много работ, которые развивают проблематику мультимодальности или движутся в этом направлении, но не используют сам термин.

Например, ключевая для визуальных исследований автор Уильям Митчелл задается вопросами взаимодействия текста и изображения, без использования, опять же, термина «мультимодальность». Он утверждает, что не существует чисто визуальной или чисто текстовой репрезентации (Mitchell, 1994). Область визуального перестает быть таковой, как только в нее попадает текст — а это рано или поздно обязательно происходит. Например, в одной из глав Митчелл рассматривает кейс художника Уильяма Морриса и его яростью по отношению к подписям к собственным работам. При попадании в пространство галереи произведения Морриса получали этикетку с его именем, названием работы и прочей информацией о произведении, что, по мнению художника, определенным образом категоризировало работу и создавало для нее новую рамку. Это было особенно важно для Морриса, потому что он намеренно создавал объекты, сложно поддающиеся какой-то конвенциональной классификации. Подпись для Морриса определенным образом переосмысляет его работу и даже бросает ей вызов, так как она перестает восприниматься исключительно визуально, а ее текстовое сопровождение влияет на процесс видения. В случае же текстовой репрезентации, утверждает Митчелл, тексты имеют быть свойство записанными, и в момент записи они приобретают визуальную компоненту.

Интерес к феномену мультимодальности в визуальных исследованиях без использования этого термина иллюстрирует факт того, что сам этот термин принадлежит к совершенно иному и отличному от визуальных исследований дисциплинарному полю. Несмотря на то, что визуальные исследования наследуют достаточно много из других дисциплин — как традиционных, так и новых, термину «мультимодальность» пока что не удалось в них интегрироваться. Возможная причина этого кроется в относительной новизне проекта исследований мультимодальности визуального. Кроме того, феномен мультимодальности, как было рассмотрено выше, не образовал единой исследовательской традиции, и рассматривается в рамках разных дисциплинарных полей, но все традиции этих исследований берут истоки из лингвистики, в том числе исследования мультимодальности визуального. Другая возможная причина непопулярности этого термина в визуальных исследованиях может быть в том, что он был связан с традицией лингвистического редукционизма. Так или иначе, мультимодальность визуального все равно остается полем, совершенно не соприкасающимся с более традиционными исследованиями визуального, но такое положение дел вполне может измениться в будущем.

Таким образом, исследования мультимодальности могут оказаться очень полезными визуальным исследованиям, так как позволяют преодолеть ограниченное понимание визуальности, которое сводит ее к оптическому. Феномен мультимодальности также поможет преодолеть склонность к иерархии, свойственную некоторым дисциплинам, когда вопрос анализа объекта в какой-то момент сводится к определению того, какие аспекты достойны внимания, а какие следуют игнорировать. Такой подход позволит плодотворно анализировать образы, используемые в рекламе и дизайне, где текст и изображения взаимодействуют друг с другом вне традиционных рамок, понимаемых под визуальностью. Несмотря на то, что в настоящее время исследования мультимодальности визуального, казалось бы, развиваются параллельно с визуальными исследованиями, есть основания надеяться, что термин «мультимодальность» успешно интегрируется в визуальные исследования и поможет преобразовать то, как мы анализируем область видимого.

Список литературы

Источник