Что такое облако слов в русском языке
Что такое облако слов в русском языке
С облаком слов или тегов вы наверняка уже не раз встречались в сети Интернет. Как правило, такое облако «висит» на сайте в боковой колонке, а при наведении курсора на него слова начинают или увеличиваться в размерах, или «вращаться» вокруг невидимой нам оси.
Облако слов или тегов (англ. tag cloud, word cloud, wordle ) — это визуальное представление списка категорий или тегов, также называемых метками, ярлыками, ключевыми словами и т.п. Принцип устройства таких облаков очень простой. Поскольку каждое слово является гиперссылкой, то чем чаще оно встречается на сайте, тем больший размер принимает в облаке. Встречаются облака, в которых важность слова подчеркивается цветом. Таким образом, облако слов всегда подвижно и изменяется в размерах и по цвету по мере публикации новых материалов на сайте.
Благодаря удобству использования и внешней привлекательности облака слов часто используют в блогах и на тематических сайтах.
Первоначально облака слов выступали только как средства организации гиперссылок. Постепенно их функции видоизменялись, и сегодня область их использования гораздо шире.
Во-первых, словами, из которых формируется облако, теперь могут быть не только гиперссылки. Вы можете взять любой текст и с помощью специальных программных средств превратить его в облако слов. Во-вторых, облака слов нашли применение, помимо сайтостроения, во многих других сферах, в том числе в сфере образования.
Каким образом учитель может использовать облака слов в своей работе?
Существуют различные способы:
Приведём несколько конкретных примеров использования облака слов учителями:
Сервисы для создания облака слов
1. Сервис Wordcloud.pro позволяет создавать интерактивные облака из слов. С помощью облака слов можно организовать поисковую страницу вашего сайта или же использовать «облако» в дальнейшей работе как картинку, сохранив в форме графического файла. Любой текст или просто набор слов легко превращается в облако тегов. Несомненным плюсом сервиса является его русскоязычный интерфейс.
Облако тегов формируется двумя способами: 1) из заданных вами слов или текста, 2) из предложенного набора слов на сайте. Сервис позволяет создать облако тегов в форме слова или образа. Возможности ограничиваются лишь вашей фантазией.
Для начала работы регистрация не требуется.
2. Сервис Tagul.com, как и предыдущий сервис, позволяет создать облако слов из текста, введенного пользователем или с web-страницы по указанному адресу.
Облако может иметь различную форму и цветовое решение. Каждое слово облака представляет собой гиперссылку для поиска в Google.
Для начала работы необходимо зарегистрироваться в сервисе или войти, используя аккаунт социальных сетей. Сервис поддерживает кириллицу.
Созданным облаком можно поделиться, используя ссылку, а также можно получить код для встраивания облака на страницы сайтов, блогов.
Сервис позволяет сохранить облако слов не только как растровое изображение (расширение PNG), но и как векторное (SVG). Также вы можете просто распечатать облако на принтере.
3. Сервис Wordclouds.com является бесплатным онлайн-генератором облака слов или тегов из текста, предоставленного вами. В облаке выделяются более крупно слова, которые чаще всего встречаются в исходном тексте. Вы можете настроить облако, используя различные шрифты, макеты, фоны и цветовые схемы.
В сфере образования этот сервис можно использовать для подведения итогов опросов, игр, мероприятий. Можно обработать текст и определить частотность того или иного слова.
Созданные изображения можно сохранить в галерее, сохранить как картинку на жестком диске компьютера, распечатать на принтере. Также можно добавить ссылку на облако на свой сайт, блог или поделиться им с друзьями.
Как создать облако тегов: бесплатные плагины и сервисы
Облако тегов, оно же облако слов, – это специальный блок на сайте, который содержит названия разделов или какие-то ключевые слова. Облако слов на сайте может использоваться в качестве навигационного или дизайнерского элемента.
Облако может располагаться на любых страницах сайта, например, на главной, если оно используется в качестве навигационного элемента.
Рассмотрим бесплатные сервисы и WordPress-плагины, которые помогут вам создать облако тегов на своем сайте.
Немного теории
Функции, которые может выполнять облако тегов
Как выглядит облако тегов
Выглядеть облако с ключевыми словами может абсолютно по-разному. Его форма, размеры, шрифты – все это кастомизируется. Самые первые облака тегов были довольно примитивными – в них использовались стандартные, скучные шрифты. Отличался только размер кегля:
Чуть позже появились красивые трехмерные облака, которые создавались при помощи флеша (сейчас эта технология уже неактуальна) или при помощи того же HTML. Сегодня создать красивое и функциональное облако можно буквально в пару кликов. Как это сделать – узнаем далее.
Как создать облако тегов
Сделать это можно как вручную, так и при помощи автоматических инструментов. К последним относятся готовые плагины для CMS и онлайн-сервисы.
Какой именно инструмент использовать для создания облака тегов, зависит от вашего сайта. Если он полностью самописный, возможно, придется прописывать HTML или воспользоваться инструкцией, которую предлагает выбранный вами сервис. Если же сайт работает на одной из популярных CMS, то можно обойтись плагином.
Установка «неродного» вашей CMS облака часто происходит путем интеграции HTML-кода в шаблон сайта.
Облако тегов на WordPress
Облако тегов изначально появилось в CMS WordPress. И по сей день там его можно настроить без всяких плагинов, достаточно активировать облако в виджетах:
Такое облако будет выводить теги, которые были присвоены минимум одной записи на сайте. Добавить это облако меток можно как в подвал, так и в сайдбар.
Конечно, это стандартный, а значит – безликий с точки зрения дизайна блок. Так что он может просто не подойти к дизайну вашего сайта:
Кастомизировать дизайн стандартного облака меток WordPress можно при помощи редактирования системного файла functions.php. Останавливаться подробнее не буду, так как придется кодить и это не совсем простой для обычных пользователей способ. Поэтому для кастомизации стандартного облака меток WordPress я рекомендую использовать сторонние плагины.
Бесплатные WordPress-плагины для создания интерактивного облака тегов
Плагинов для облака тегов много, но некоторые устарели. Я предлагаю познакомиться только с актуальными расширениями, которые точно работают на последней версии WordPress.
Cool Tag Cloud
Один из самых популярных плагинов – это Cool Tag Cloud от разработчика WPKube.
Облака тегов, созданные с помощью Cool Tag Cloud
С точки зрения функционала плагин вполне неплох, но ничего особо выдающегося здесь нет. Учтите, что дизайн облака Cool Tag Cloud также весьма специфичен и может не вписываться в оформление вашего сайта. Тем не менее, свою главную функцию – создание облака с интерактивными ссылками – плагин выполняет отлично.
Доступно множество настроек: шрифты, размер кегля, стиль изображения, анимация, максимальное количество тегов и пр.
HTML5 Cumulus
Это плагин с многолетней историей. Ранее назывался WP-Cumulus. Созданное с его помощью облако тегов будет правильно выводиться не только в десктопных, но и в мобильных браузерах. Например, так:
Примеры облаков, созданных в HTML5 Cumulus
Плагин работает через виджет сайдбара. На выходе мы получаем трехмерное облако тегов с возможностью доскональной настройки:
Чтобы воспользоваться плагином, просто установите его через админку WordPress. Затем откройте раздел «Внешний вид», кликните пункт «Виджеты» и добавьте Cumulus в сайдбар.
Tag Groups
Мощный плагин, позволяющий организовывать теги WordPress в группы (либо в алфавитном порядке) и отображать их в облаке.
Так выглядит облако Tag Groups на странице (обратите внимание на сортировку по алфавиту):
Использовать облако тегов Tag Groups можно в постах, на страницах и прямо в виджетах
Всего доступно пять видов облаков (вкладки, «аккордеон», список, алфавитный порядок).
Для тегов в облаке можно настроить:
Creative Tag Cloud
Интересный плагин, который позволит выделить ваш WordPress-сайт при помощи красочного облака тегов. Необычное отображение тегов в облаке – волнообразное или спиральное:
Плагин Creative Tag Cloud позволяет создавать облака необычной формы. Чем чаще используются теги, тем они крупнее (расположены в начале спирали или волны)
Созданные облака можно вставлять в посты или использовать на страницах. Просто вставлять их через виджет или проставлять на странице/в посте шорткодом.
В настройках плагина довольно много параметров, с которыми нужно будет экспериментировать (размер слов, количество циклов, расстояние между тегами). Можно менять цвета: плагин поставляется с палитрой по умолчанию, которую можно активировать прямо в виджете или добавив color=1 в шорткод. Естественно, понадобятся базовые знания CSS, чтобы работать с пользовательскими цветами.
3D Tag Cloud
3D Tag Cloud позволяет создать вращающиеся (трехмерные) теги на любой странице вашего сайта.
В новой версии (в панели администратора) добавлены новые параметры:
Плагин позволяет кастомизировать:
Чтобы получить симпатичное облако, так же, как и с предыдущим плагином, придется основательно поэкспериментировать с настройками.
Categorized Tag Cloud
Categorized Tag Cloud, или «Облако категоризированных тегов» – это плагин для WordPress, позволяющий создать облако с ручным добавлением тегов. Размещение – только в сайдбаре.
Слова внутри облака фильтруются по категориям + можно удалить все ненужные теги и добиться максимальной релеватности контенту своего сайта.
Настроить можно следующие параметры:
Бесплатные сервисы для создания дизайнерского облака тегов
Эти сервисы позволяют создать «автономное» облако тегов. На выходе вы получите так называемые SVG-фигуры (SVG – это формат векторной графики).
По умолчанию слова в таком облаке будут некликабельными. Но есть как минимум три способа сделать их интерактивными:
Word Cloud Generator
Чтобы начать редактировать свое первое облако, необязательно даже регистрироваться, указывать e-mail или что-то еще. Достаточно открыть сайт и указать список всех ключевых слов, при необходимости – настроить отображение облака:
На выходе получим примерно такое облако:
Сервис полностью поддерживает кириллицу и позволяет настраивать угол (ориентацию) слов по отношению друг к другу. Также доступна настройка шрифта, общего количество слов, можно указать одно слово на линию.
После того, как мы закончили настраивать созданное облако, его необходимо сохранить и добавить на свой сайт (в качестве изображения на одной из страниц, например).
Tagxedo
Незамысловатый, но функциональный сервис. Продуманный интерфейс с минимальным функционалом. На старте предлагает создать обычное облако слов или облако из ваших блогов, твитов, меток:
Доступно более десятка оригинальных тем. Кроме этого, можно настроить десяток других параметров: ориентацию слов, форму, шрифт.
Единственный, но значимый недостаток – сервис не работает в Google Chrome, так как в нем отсутствует поддержка технологии Silverlight.
Wordart
Еще один простой и удобный онлайн-конструктор облака слов, позволяющий создавать их в самых неожиданных формах и сочетаниях:
Облака тегов, созданные с помощью Wordart
Чтобы создать собственное облако слов, выбираем пункт Create now и сразу попадаем в интерфейс конструктора:
Как видим, интерфейс здесь – один из самых сложных, даже по сравнению с ранее рассмотренными нами сервисами. Давайте разберемся с разделами и настройками подробнее.
Самый интересный – Shapes: здесь мы можем выбрать форму конечного облака (а еще добавить свое изображение и сделать из него облако). Здесь очень разнообразная коллекция форм облаков. Например, вот формы по рождественской тематике:
Кстати, Wordart, на моей памяти, – единственный сервис, позволяющий создать полноценное анимированное облако меток.
В Layout можно кастомизировать ориентацию (угол) слов:
В Words вносим новые слова, их можно указать не только вручную, но и импортировать из уже существующего документа:
По-настоящему здорово, что для всех элементов можно назначить различный размер (индивидуальный), а также изменить цветовое сочетание.
Завершив формирование облака при помощи настроек, можно выбирать пункт Visualize.
Кстати, здесь также есть магазин, где можно заказать, например, футболку или постер с вашим облаком. К сожалению, кириллицу сервис пока еще не поддерживает, что значительно ограничивает использование инструмента для русскоязычных пользователей.
Word it out
Самый «спартанский» сервис. Здесь нет сотен шаблонов, огромного количества настроек и других плюшек. Зато сервис легкий и ничем не перегружен. Он позволит создать самое простое облако тегов, небольшого размера, но с весьма симпатичным шрифтом. Достаточно ввести все слова в поле Original Text:
Настройки есть, но их немного. Можно указать минимальное количество букв в слове, фильтрованные слова и символы пунктуации, которые не будут использоваться в облаке:
Можно поменять: цвет фона, цвет слов. Есть поддержка кириллицы.
Доступны следующие шрифты:
Так выглядят остальные настройки:
После ввода всех ключевых слов выбираем пункт Generate и наблюдаем результат:
Послесловие
Облако меток как элемент сайта многие считают весьма устаревшим. Обычно говорят, что его функционал полностью заменил поиск по сайту. Но по-моему, это абсолютно не так. Почему? Допустим, вы видите перед собой поисковую строку на каком-либо тематическом ресурсе. Мотивирует ли она вас ввести какую-либо фразу и что-то поискать? Я очень сильно в этом сомневаюсь. Другое дело – облако тегов. Оно притягивает наш взгляд, заставляет изучать содержимое и на каком-то неведомом уровне «заставляет» кликнуть по интересующему слову. Немаловажно, что для поиска ничего не нужно вводить – все и так как на ладони.
Таким образом, облако тегов не является заменой поисковой строки на сайте. Это совсем другой инструмент, с другим функционалом, который при грамотном использовании улучшит поведенческие факторы вашей аудитории. Как минимум, увидев красивое облако меток, посетитель задержится на странице, чтобы изучить его подробнее. А это уже прямое влияние на метрику «Время на сайте».
В Google и «Яндексе», соцсетях, рассылках, на видеоплатформах, у блогеров
Что такое облако слов?
Облако слов представляет собой изображение составленное на основе текста. Воспользовавшись сервисом Word’s Cloud вы получите картинку, в формате png, составленную из слов содержащихся в предоставленном вами тексте. Слова в облаке будут разного размера и цвета. Размер и цвет будет зависеть от частоты появления данного слова в тексте.
Зачем мне облако слов?
Возможности в использовании облака слов ограничиватся только вашей фантазией. Привлекательно выглядящие картинки могут использоваться во многих случаях. Давайте немного пофантазируем и придумаем вместе с вами способы их использования. Ко мне приходит сразу мысль об изображении комплиментов для вашей второй половинке в виде сердечка. Подберите самые красивые и трогательные слова для нее, а WordsCloud красиво их оформит.
Если у вас есть свой интернет-блог вы можете использовать наш сервис для оформления ваших статей, используя облака в качестве изображения к статье.
Облако слов можно использовать как принт для сувенирной продукции: кружек, футболок, чехлов для телефонов. Такой необычный рисунок точно подчеркнет вашу индивидуальность.
Почему стоит использовать Word’s Cloud?
Давайте рассмотрим плюсы сервиса. Простой, удобный и интуитивно понятный интерфейс будет прост в использовании. В нем присутствует настройка цвета фона и текста, а также возможность выбора различных трафаретов для придания разнообразных форм облакам из слов. Все это способствует созданию интересного результата за минимальное количество времени.
Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра
В последней части Хабрарейтинга был опубликован метод построения облака слов для англоязычных терминов. Разумеется, задача парсинга русских слов является гораздо более сложной, но как подсказали в комментариях, для этого существуют готовые библиотеки.
Разберемся, как строить такую картинку:
Также посмотрим облако статей Хабра за все годы.
Кому интересно, что получилось, прошу под кат.
Парсинг
Исходный датасет, как и в предыдущем случае, это csv с заголовками статей Хабра с 2006 до 2019 года. Если кому интересно попробовать самостоятельно, скачать его можно здесь.
Для начала, загрузим данные в Pandas Dataframe и сделаем выборку заголовков за требуемый год.
Функция unicode2str нужна для того, чтобы убрать из вывода консоли разные хитровывернутые юникодные символы, типа нестандартных кавычек — под OSX это работало и так, а при выводе в Windows Powershell выдавалась ошибка «UnicodeEncodeError: ‘charmap’ codec can’t encode character». Разбираться с настройками Powershell было лень, так что такой способ оказался самым простым.
Следующим шагом необходимо отделить русскоязычные слова от всех прочих. Это довольно просто — переводим символы в кодировку ascii, и смотрим что остается. Если осталось больше 2х символов, то считаем слово «полноценным» (единственное исключение, которое приходит в голову — язык Go, впрочем, желающие могут добавить его самостоятельно).
Следующая задача — это нормализация слова — чтобы вывести облако слов, каждое слово нужно вывести в одном падеже и склонении. Для английского языка мы просто убираем «‘s» в конце, также убираем прочие нечитаемые символы типа скобок. Не уверен, что этот способ научно-правильный (да и я не лингвист), но для данной задачи его вполне достаточно.
Теперь самое важное, ради чего все собственно и затевалось — парсинг русских слов. Как посоветовали в комментариях к предыдущей части, для Python это можно сделать с помощью библиотеки pymorphy2. Посмотрим, как она работает.
Для данного примера имеем следующие результаты:
Для слова «миру» MorphAnalyzer определил «нормальную форму» как существительное (noun) «мир» (или «миро», впрочем, не знаю что это такое), единственное число (sing), и возможные падежи как dativ, genitiv или locative.
С использованием MorphAnalyzer парсинг получается довольно простым — убеждаемся, что слово является существительным, и выводим его нормальную форму.
Осталось собрать все вместе, и посмотреть что получилось. Код выглядит примерно так (несущественные фрагменты убраны):
На выходе имеем словарь из слов и их количеств вхождений. Выведем первые 100 и сформируем из них облако популярности слов:
Результат, впрочем, оказался весьма странным:
В текстовом виде это выглядело так:
Окончательный результат более-менее похож на правду (за исключением Go и возможных статей про ужей). Осталось сохранить все это в gif (код генерации gif есть в предыдущей части), и мы получаем анимированный результат в виде популярности ключевых слов в заголовках Хабра с 2006 по 2019 год.
Заключение
Как можно видеть, разбор русского текста при помощи готовых библиотек оказался вполне несложным. Разумеется, с некоторыми оговорками — разговорный язык это гибкая система с множеством исключений и наличием зависимости смысла от контекста, и 100% достоверности тут получить наверно невозможно вообще. Но для поставленной задачи вышеприведенного кода вполне достаточно.
Сама работа с кириллическими текстами в Python, кстати, далека от совершенства — мелкие проблемы с выводами символов в консоль, неработающий вывод массивов по print, необходимость дописывать u»» в строках для Python 2.7, и пр. Даже странно что в 21 веке, когда вроде отмерли все атавизмы типа KOI8-R или CP-1252, проблемы кодировки строк еще остаются актуальными.
Наконец, интересно отметить, что добавление русских слов в облако текста практически не увеличило информативности картинки по сравнению с англоязычной версией — практически все IT-термины и так являются англоязычными, так что список русских слов за 10 лет изменился гораздо менее значительно. Наверное, чтобы увидеть изменения в русском языке, надо подождать лет 50-100 — через указанное время будет повод обновить статью еще раз 😉