Что такое страница сегментации

Сегментация трафика: как увеличить конверсию в 2 раза

Есть такой термин «сегментация трафика». Его еще называют «гиперсегментация трафика» и даже «супергиперсегментация трафика». На самом деле, смысл от этого никак не меняется. Это лишь громкие приставки, которые никак не влияют на суть.

Сегментация трафика – это создание отдельных посадочных страниц под каждый отдельный вид трафика, либо подмена контента под определенные посадочные страницы.

Например, у нас есть услуга УЗИ. Нам необходимо сделать на нее рекламу. Мы собираем ключевые запросы по всем категориям УЗИ, которые делает медицинский центр, и все ведем на посадочную страницу про УЗИ. Там написано, какие виды УЗИ могут быть выполнены, есть большой прайс-лист и отзывы, перечислены все врачи и прочее. Это первый вариант.

Второй вариант: мы собираем так же все запросы, и делаем несколько посадочных страниц отдельно под УЗИ сердца, печени, почек и т.д. На каждой такой странице размещен свой прайс-лист, свои фотографии и свои заголовки, т.е. все, что относится к конкретному типу УЗИ. В идеале, разместить отзывы именно об этом виде УЗИ (гинекологическое УЗИ, например).

Что нам это дает? Эффект зеркала в контекстной рекламе. Может быть, есть какое-то специализированное название данного механизма, но для меня это всегда был эффект зеркала. Когда человек видит заголовок, который полностью отзеркаливает его запрос, когда он видит конкретную цену на определенную, нужную ему услугу, видит врача, который выполняет данный вид УЗИ, и даже отзывы тех, кто такое УЗИ уже сделал, конверсия сильно поднимается.

Если мы говорим о 3-5 кликах в день, конечно, прибыль от этого не вырастет. Но если это 500-700 кликов, представьте, как сегментация трафика качественно может увеличить количество заявок.

Сегментацию трафика можно сделать тремя разными способами:

Пользуясь этим сервисом, вы можете без знания кода, без привлечения программистов, заменить картинки и заголовки на странице.

Недостатков у сервиса, как таковых, нет. Если не считать того, что за него нужно платить ежемесячно, или вести кампании на аккаунтах сервиса. Если вас это не смущает, то это хороший вариант.

На мой взгляд, именно третий вариант является приоритетным. Все эти красивые термины вроде «динамическая подмена контента» и т.п. не имеют под собой никакого смысла, если все это можно реализовать через создание разных страниц.

Если у вас большой сайт такая стратегия будет оказывать влияние еще и сео-оптимизацию вашего сайта. В органической выдаче вы тоже подрастете. У вас будут сегментированные страницы. Именно они и начнут появляться в поисковике в органической выдаче по низкочастотным запросам.

Но и два других способа тоже имеют место. И исключать их не стоит, все будет зависеть от конкретных задач.

Реализация не имеет как таковых алгоритмов. Я расскажу, как это делаю я. Если у вас есть лучшие способы, буду благодарен, если напишите в комментариях. Разберем сегментацию трафика на примере того же УЗИ.

Я собрал все запросы, согласовал с клиентом, чтобы понять, что клиника делает, а что нет (УЗИ для беременных и детей, например, они не делают).

Согласованные запросы разбили на категории: УЗИ печени, почек и т.д. На всех страницах сделал свой контент, свой уникальный текст. Добавили фотографии, где пациенту делают конкретный тип процедуры. Конечно, не на всех фотографиях можно разобрать, какой вид УЗИ выполняется. Да и не все процедуры можно снять. Но главное, чтобы это были разные фотографии.

Идеально, когда есть отзывы на каждый тип УЗИ. Я терпеть не могу заказанные отзывы на сайте, поэтому стараюсь добавлять их со сторонних ресурсов. Фламп, например. В случае с медицинской тематикой я добавлял отзывы реальных пациентов с ресурса «Про докторов».

Также на странице есть список врачей. Тут отлично получилось сегментировать специалистов, потому что есть врачи, которые выполняют только гинекологическое УЗИ, или только УЗИ сердца. Мы разместили фотографии этих врачей на нужных страницах, чтобы человек мог зайти и посмотреть, кто будет выполнять процедуру.

Обязательно стоимость услуги. Не весь прайс, а лишь цену на конкретную процедуру. Если есть варианты, их прописываем. Но вряд ли их будет больше 5. Человек не должен листать длинный огромный прайс-лист. Я вообще не сторонник скрывать цены на сайте, потому что, если человеку дорого, нет никакого смысла привлекать его. Ведь после звонка ему все так же будет не по карману стоимость услуги. Так зачем тратить время менеджера?

Что это такое? В идеале, динамическая подмена заголовков – это подмена заголовков под запрос, который ввел пользователь. В реальности это выглядит следующим образом: мы к каждому ключевому слову, к каждой группе ключевых запросов добавляем параметр в ссылку, по которому выводим нужный нам заголовок.

Например, если человек ищет, «как заказать стиральную машинку Bosch», то в заголовке объявления он увидит не просто фразу «заказать стиральную машинку», а заголовок «Заказать стиральную машинку Bosch».

Мы реализовали это не только с помощью utm-меток. В наших ссылках прописан параметр, который вводит заголовок, т.е. заголовок прописан прямо в ссылке. К каждой группе ключевых слов я написал свой индивидуальный текст. Да, эта работа не самая интересная. Она делается долго и нудно, особенно, если у вас большое количество запросов. Но все это окупается, потому что пользователь видит полное совпадение своего запроса с вашим объявлением, и на психологическом уровне повышается его доверие.

Человек ищет ремонт стиральной машины «Electrolux», которая протекает, и вводит такой запрос. Клиент, кликнет по вашему совпадающему с запросом заголовку, и зайдет на сайт, где будет обозначена конкретная проблема с машинкой определенного бренда. Например, на сайте может быть заголовок «Протекает стиральная машинка Electrolux? Мы поможем!». Таким образом, клиент видит, что именно его проблема будет решена.

Конечно, это можно сделать не только с помощью добавления динамических заголовков, а путем добавления еще ряда страниц. Но, как правило, все эти дубли будут нести одинаковый или похожий смысл. Для поисковика это будет одна и та же информация. Таким образом, нам придется делать много работы, а смысла в этом не много.

Я думаю, что динамическая подмена заголовков – это красивый и изящный вариант решения данной проблемы. Тем более, что стоимость такой работы у программиста-фрилансера 500-1000 рублей, а время реализации – пара часов.

Есть также огромное количество сервисов, которые предоставляют такую услугу, но проще один раз заплатить специалисту, и затем пользоваться такой технологией бесплатно.

Источник

Целевые страницы, конверсионные пути, микросайты – что по-настоящему работает?

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Мы хотим начать наш новый пост с упоминания основополагающих аксиом интернет-маркетинга:

Этот материал посвящен различным типам и видам целевых страниц и принципам их применения. В нашем новом посте будет использована «живая» статистика реальных рекламных кампаний.

Итак, представьте себе следующую гипотетическую ситуацию: перед вами три закрытые двери, и только одна из них ведет к успеху. Условно говоря, дверь номер 1 – целевая страница, дверь номер 2 – конверсионный путь, дверь номер 3 – микро-сайт.
Выбирать наугад – отнюдь не лучшее решение. В мире интернет-маркетинга догадки, не подкрепленные расчетом и знаниями, стоят достаточно дорого (каждый оплаченный клик в идеале должен быть конвертирован).

Теперь поговорим о том, что скрывается за каждой из трех наших воображаемых дверей или другими словам, как правильно подобрать посадочные страницы для получения максимально высокой конверсии.

Автономная целевая страница (Stand Alone Landing Page)

Автономная целевая страница не связана напрямую с вашим веб-ресурсом, и не обязательно располагается на том же домене.

На автономную целевую страницу пользователь попадает, как правило, после перехода с того или иного рекламного объявления. В идеальном случае такая страница максимально релевантна ключевому слову/креативу, фигурировавшему в поисковом запросе/баннере и решает строго локальную задачу по конвертации трафика.

Такой целевая страница поддерживает 100% точное вхождение заголовков по схеме: рекламное обьявление – целевая страница. Хорошей считается конверсия в диапазоне 2-5%.

Автономная посадочная страница подходит для узконаправленных рекламных кампаний для любого вида трафика (для мобильного трафика желательно использовать адаптированную для мобильных устройств или специальную целевую страницу) и, конечно, такая страница очень популярна в работе CPA-платформ.

Цель: лид заказа очереди на консультацию по имплантации зубов.
Пример целевой страницы: implantcity.lpgenerator.ru.
Источник трафика: тизерная сеть DirectAdvert.ru.
Показатель конверсии: 1.1%.
CPL или стоимость лида: 640 руб.
Время тестирования: 2 недели.

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Цель: лид на консультацию оптимизации конверсии.
Пример целевой страницы: conversionrateoptimization.lpgenerator.ru.
Источник трафика: блог LPgenerator/баннер.
Показатель конверсии: 3.97%.
CPL или стоимость лида: 0 руб. (100% SEO трафик).
Время тестирования: в работе.

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Конверсионный путь (Conversion Path)

Конверсионные пути или «целевые страницы 2.0» – это, наверное, самая прогрессивная модель конвертации входящего трафика в современных стратегиях интернет-маркетинга. Они позволяют выполнить сегментацию, субсегментацию и эффективную конвертацию любого таргетированного рекламного потока (PPC, CPM, CPA, медийный и т.д.) в рамках какой угодно маркетинговой кампании.

Другими словами, конверсионный путь представляет собой автономные целевые страницы определенной иерархии и практическое воплощение понятия «воронки конверсии». В идеале, конверсионный путь, над созданием которого вы, как веб-маркетолог, трудились тщательно, кропотливо и целенаправленно, может дать вам максимально высокую конвертацию.

Средние показатели конверсии страницы сегментации или главной страницы находятся в диапазоне 50-90%. Страницы субсегментации или офферы имеют коэффициент конверсии 4% и выше.

Конверсионные пути прекрасно конвертируют расширенный поток пользователей смежных категорий, например, «товары для молодых мам» и «товары для беременных».

Цель: лид на флирт-вечеринку.
Пример страницы сегментации: speed-dating.lets-dating.com.ua.
Источник трафика: PPC/yandex Direct.
Показатель конверсии страницы сегментации: 81.6%.
CPL или стоимость лида: неизвестно.
Время тестирования: в работе.

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Цель: лид на заказ дизайна.
Пример страницы сегментации: design.lpgenerator.ru.
Источник трафика: блог LPgenerator/баннер.
Показатель конверсии страницы сегментации: 85.86%.
CPL или стоимость лида: 0 руб. (100% SEO трафик).
Время тестирования: в работе.

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Микросайты (MicroSites)

Микросайт или мини-сайт – это небольшой веб-сайт, посвященный конкретному товару/услуге. Мини-сайт – это ресурс, который состоит из нескольких веб-страниц, объединенных общим графическим дизайном и логической связью. Мини-сайт обладает обычными элементами веб-сайта: у него есть верхнее меню, страница контактов, товарные страницы – и в этом его коренное отличние от конверсионных путей: микросайт выглядит как традиционный, привычный интернет-пользователю, ресурс.

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Мини-сайт отличается от сайта-визитки лишь тем, что «заточен» под конвертацию: большие CTA-элементы, лид-форма на каждой странице, минимизированное меню. Такие целевые страницы обычно используются компаниями, предлагающими услуги, например, бухгалтера, адвоката, консультанта и т.д. Поскольку весь ресурс в данном случае будет посвящен одной или нескольким смежным целям, это позволит максимально эффективно конвертировать узкотаргетированный трафик.

Сегментация происходит через главную страницу мини-сайта, но товарные страницы или внутренние страницы услуг могут прекрасно конвертировать трафик и выступать в роли автономных целевых страниц (Stand Alone Landing Pages).

Цель: лид на заказ праздника/целевой звонок.
Пример главной страницы: buyshow.alloka.ru.
Источник трафика: PPC/Yandex.Direct.
Показатель конверсии страницы сегментации: лиды 0.51%.
Показатель конверсии страницы сегментации: целевые звонки 1.5%.
CPL или стоимость лида: 1000-5000.
Время тестирования: в работе.
Стоимость продукта: 200 000 +.

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Что общего и какие различия имеют все три вышеперечисленных вида посадочных страниц?

Все они – автономные целевые страницы, конверсионные пути, микросайты – должны обладать следующими качествами:

А теперь попытаемся определить, какой тип целевой страницы подходит для каждого конкретного случая.

Для удобства мы выделили основные характеристики трех видов целевых страниц в отдельную таблицу:

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Тестирование целевых страниц

Однако все наши советы без проверки на практике окажутся для вас абсолютно бесполезными. «Все познается в сравнении», гласит мудрая поговорка, в нашем же случае мы можем смело сказать так: «все определяет тестирование».

Шаг 1: определить вид целевой страницы согласно маркетиноговой стратегии;
Шаг 2: настроить целевую страницу и активировать источники трафика;
Шаг 3: сегментировать каналы входящего трафика;
Шаг 4: провести сплит-тестирование каждой конкретной посадочной страницы вне зависимости от ее типа.

Только с помощью подобного рода тестов вы сможете найти ответ на фундаментальный вопрос: «какой вид страницы будет отличаться максимально высокой конверсией?». Или, говоря другими словами – «Как мне заработать больше, не увеличивая рекламный бюджет?».

Источник

Сегментирование трафика на отдельные целевые страницы для поднятия конверсии

В условиях конкуренции коммерческие интернет-ресурсы привлекают для повышения трафика, наряду с контекстной рекламой и поисковой оптимизацией (SEO), такие популярные средства онлайн-коммуникаций как социальные сети (Facebook, Вконтакте, Twitter), персональные и корпоративные блоги, а также рассылки по электронной почте.

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

И если в итоге на одну страницу поступает трафик переадресованный с различных источников, то определить, какой из них приносит большее число пользователей и положительно влияет на конверсию, достаточно сложно. Эффективным решением этой проблемы является так называемый «метод сегментации (разделения) трафика».

Итак, что же такое сегментация страницы?

Что такое сегментация страниц?

Сегментация подразумевает, что каждый входящий источник направляет трафик на свою собственную целевую страницу. При использовании метода сегментации для каждого канала появляются широчайшие возможности по тестированию и оптимизации.

Обязательно ознакомьтесь с четырьмя основными преимуществами разделения входящего трафика на самостоятельные целевые страницы:

1. Степень соответствия поисковому запросу

Направление трафика от каждого источника на его собственную целевую страницу поможет точнее установить степень ее релевантности поисковому запросу.

Высокая степень соответствия поисковому запросу при работе по схеме «оплата за клик» (PPC) поможет снизить стоимость каждого клика из-за повышения показателя качества, а также положительно повлияет на уровень «отказов», понизив его.

2. Наглядность метода

Мониторинг коэффициента конверсии для каждого входящего канала трафика поможет быстро определить, какой источник является самым популярным, а какой — совсем не «приносит» пользователей на вашу целевую страницу.

3. Простая и ясная отчетность

С помощью сегментации страниц вы сможете собрать статистику и наглядно убедиться в высокой (или низкой) эффективности каждого источника трафика и поможет выбрать подходящий метод оптимизации (например, с помощью сплит-тестирования). Возможно, полученные данные укажут на то, что целесообразно отказаться от одного из источников из-за его бесперспективности.

4. Точность полученных результатов для каждого канала трафика

Теоретически можно попытаться одновременно оценить результат оптимизации нескольких каналов трафика, если направить весь трафик на одну целевую страницу. Но на практике, скорее всего, вам не удастся точно установить, влияет ли оптимизация каждого отдельного источника трафика на улучшение его коэффициента конверсии, и установить целесообразность финансовых затрат.

Источник

Сегментация страницы — обзор

Некоторое время назад (о, боже, уже год прошёл!) на вопрос, будет ли кому-то интересен обзор по современным методам сегментации изображения страницы документа, я получил положительный ответ (от massimus). И сегодня наконец-то решил этот обзор сделать.

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментацииНо для начала – маленькое отступление. Систему распознавания текста в наших продуктах можно описать очень просто. У нас есть страница с текстом, мы разбираем ее на текстовые блоки, затем блоки разбираем на отдельные строчки, строчки на слова, слова на буквы, буквы распознаем, дальше по цепочке собираем все обратно в текст страницы. Задача сегментации ставится примерно так: есть страница, надо её декомпозировать на текстовые и нетекстовые элементы.

Дальше задачу можно уточнять и уточнять (здесь я уже вам поднадоел с разъяснениями, что правильная формулировка задачи — уже полшага к её решению; можете не сомневаться, коллег и начальство я достал этим ещё сильнее). Научные работники из разных стран, авторы приводимых методов, хотят заниматься наукой, а не казуистикой, поэтому формулируют свою задачу попроще:

На странице есть текст и картинки. Требуется разбить на блоки текст и выделить картинки.

Источником вдохновения для меня послужила статья F. Shafait, D. Keysers, and Th. Breuel. Performance Comparison of Six Algorithms for Page Segmentation (далее я буду её называть SKB, по начальным буквам фамилий авторов), где дана сравнительная оценка практически всех приведённых методов сегментации. Так что если хотите сразу покопаться в первоисточниках — то лучше брать её и идти по ссылкам. А описание самих алгоритмов, подробности и обсуждение — здесь.

Итак, нам нужно разбить текст на блоки и выделить картинки. Как видите, о таблицах, диаграммах и прочих изысках здесь речи не идёт; более того, часто предполагают, что картинки высококонтрастны и при этом хорошо бинаризованы — то есть их границы в принципе можно найти, работая только с монохромным изображением.

Также в исследованиях часто используют понятия «манхеттенский» и «неманхеттенский» layout. «Манхеттенский» — это такой, в котором границы всех блоков прямые (каждый блок или прямоугольный, или представляет собой несколько прямоугольников, у которых некоторые вершины и части сторон общие), «неманхеттенский» не удовлетворяет таким ограничениям.

Для начала мы разберём некоторые алгоритмы, предназначенные для работы с «манхеттенским» документом.

Smearing

Это наиболее древний алгоритм — пожалуй, первое, что приходит в голову, когда сталкиваешься с задачей сегментации. Впервые описан в далёком 1982 году, в статье K. Y. Wong, R. G. Casey, F. M. Wahl. Document Analysis System.

В двух словах он работает так: давайте немножко размажем слова по вертикали и по горизонтали, получившиеся связные области будут готовыми блоками.

Если описать чуть подробнее, то получится так:

Вот так примерно выглядят промежуточные изображения и конечные блоки:

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

В оригинальной статье авторы работали с картинкой с разрешением 240 dpi и подобрали значения T_horz = 300 T_vert = 500 и T_final = 30. Несколько неожиданно, что значения получились столь большими (T_vert аж два дюйма с гаком), видимо это связано с тем, что делается AND.

Преимущества алгоритма понятны — он прост, работает с RLE изображением и только с ним, а значит и быстр. Сам алгоритм нигде явно не опирается на то, что входной документ — «манхеттенский». Впрочем, если подумать, то на «неманхеттенском» алгоритм не сработает — на приведённом ниже примере текст приклеится к картинке.

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

По-настоящему плохая новость состоит в том, что на «манхеттенском» документе склейки текста и «нетекста» также очень часты, в SKB это подмечено.

Recursive XY cut

Через пару лет, в 1984 году, был описан более продвинутый метод сегментации страницы, который называется recursive XY cut. Он описан в статье G. Nagy and S. Seth. «Hierarchical representation of optically scanned documents» и в 90-е годы активно развивался.

Про этот метод уже явным образом сказано, что он годится только для манхеттенского документа. Суть метода в том, что мы разбиваем страницу на блоки попеременно, деля блоки по вертикали или по горизонтали. То есть алгоритм примерно такой:

Что касается пункта о том, как делить блок. Предлагается два способа — или по белому просвету (его можно найти на проекции блока на горизонтальную или вертикальную ось соответственно) или по длинной и достаточно хорошо изолированной чёрной прямой линии.

В результате всех этих делений получается древесная структура, как справа внизу на рисунке:

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Авторы первоначальной статьи, похоже, считают своей основной заслугой это древесное представление. Они же заметили, что даже для «манхеттенского» документа возможно, что этот алгоритм не достигнет цели: к примеру, если блоки расположены вот так

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Прямо скажем, не самая распространённая конфигурация даже для газет, не говоря уж о журналах и офисных документах. Но встречается, в газетах уж точно.

Более серьёзной проблемой алгоритма видится всё же его подчинение порогам. Скажем на таком фрагменте будет сложно отделить заголовок от текста, не порвав при этом заголовок:

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

А здесь будет довольно трудно отделить картинку от текста, опираясь лишь на пороги по расстоянию:

Что такое страница сегментации. Смотреть фото Что такое страница сегментации. Смотреть картинку Что такое страница сегментации. Картинка про Что такое страница сегментации. Фото Что такое страница сегментации

Разумеется, актуальны ещё и общие для всех представленных в этом посте алгоритмов проблемы — как не оторвать нумерацию от нумерованного списка и как избавиться от ограничений, которые я указал в начале (что есть только текст и высококонтрастные картинки).

Сегментация с помощью максимальных белых прямоугольников

Теперь расскажем про идею сегментировать страницу с помощью максимальных белых прямоугольников. Что такое «максимальный белый прямоугольник»? Белый — это значит, что в нём нет чёрных точек (понятно, что изображение надо предварительно избавить от мелкого мусора). Максимальный — означает, что его нельзя увеличить ни влево, ни вправо, ни вверх, ни вниз так, чтобы он остался белым. Далее вместо чёрных точек мы будем рассматривать связные области. Как и в рекурсивных сечениях, мы можем их как-то сгруппирровать, но снова не будем на этом останавливаться. Понятно, что практически для каждой отсканированной страницы таких белых прямоугольников — десятки тысяч. Но для целей сегментации могут потребоваться только самые большие. Алгоритм их поиска предложен в статье Thomas M. Breuel. Two Geometric Algorithms for Layout Analysis

Вернёмся к задаче поиска максимальных белых прямоугольников. Можно ввести понятие «качество» для прямоугольника.

Назовём функцию качества Q( r ) для прямоугольника r монотонной, если при r1 ⊆ r2 выполняется Q(r1) = 1), а T2 и Ta — это ещё два порога. Смысл этого условия состоит в том, что стоит объединить два слова в строке, но если эти два слова имеют разную высоту, то объединять ячейки надо с большей осторожностью.

После того как нашли все ячейки, которые нужно объединить, объединяем их — и диаграмма Вороного превращается в готовую сегментацию.

В дальнейшем разные исследователи пытались улучшить работу диаграммы Вороного. Скажем, в статье 2009 года Voronoi++: A Dynamic Page Segmentation approach based on Voronoi and Docstrum features авторы M. Agrawal и D.Doermann рассказывают, как с помощью Docstrum и ещё другого странного колдунства половчее и поточнее подобрать порог T2. Про этот “улучшизм” я здесь не буду подробно писать, но само существование статей о развитии алгоритма сегментации, основанного на диаграмме Вороного, да ещё и написанных такими выдающимися учёными, как David Doermann намекает нам, куда ветер дует.

Недостатки диаграммы Вороного снова те же — ограничения зависят только от порогов, та же неясность с картинками. Несомненное достоинство данного метода состоит ещё и в том, что он содержит только три параметра, которые надо подобрать — и эти параметры указаны явным образом.

На этом я заканчиваю свой обзор научных достижений, связанных с сегментацией страницы. А наука, думаю, ещё своё слово скажет 🙂

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *