Что такое спам база

Что такое спам и как с ним бороться

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

В наиболее распространенном смысле спам – это массовая рассылка рекламных писем пользователям, которые не давали на это своего согласия. Начнем с происхождения самого слова.

Откуда взялось слово «спам»?

Слово «спам» (английский вариант – «spam») имеет довольно забавное происхождение. Изначально SPAM – это торговая марка американской компании, под именем которой в 1936 году начали выпускать мясные консервы. Во время Второй мировой войны изготовили так много, что пришлось срочно проводить рекламную кампанию – нужно было сбыть их раньше окончания срока годности. Эти консервы рекламировались везде, рекламу пускали даже по радио.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Эту ситуацию обыграли в одном из эпизодов «Летающего цирка Монти Пайтона», а нынешнее значение слово SPAM приобрело в 1986 году, когда появился поток одинаковых рекламных сообщений небезызвестной финансовой пирамиды.

Виды спама

Безопасный и опасный спам

Спам-сообщения можно поделить на две большие группы – безопасные и опасные. Первые неприятны, но грозят лишь испорченным настроением и тратой времени, а вот вторые могут нанести вред компьютеру и финансам.

Безопасный спам

Опасный спам

Как бороться с почтовым спамом

Советы

Главный совет, который не раз показывал свою эффективность: зарегистрируйте хотя бы два электронных адреса. Один для личных и рабочих контактов, а второй для регистрации на коммерческих сайтах, сайтах с сомнительным содержимым и так далее.

Следующий совет – выбирайте надежный почтовый сервис (например, Gmail ). В таких почтовых сервисах хорошо работает фильтрация спама, поэтому бОльшая часть мошеннических писем будет попадать сразу в папку «Спам».

Если какое-то письмо все-таки «прорвалось» в основную папку с письмами, обязательно отмечайте его как спам – все дальнейшие письма от этого пользователя попадут туда же.

Также для избавления от спама можно использовать фильтры и создавать правила (например, в почте Яндекса ).

Заключение

Из-за опасных ссылок и файлов, которые могут находиться внутри письма, спам представляет собой серьезную проблему, особенно для неискушенных пользователей. Поэтому даже если вы уверены, что никогда не попадетесь на удочку мошенников, то обязательно расскажите об опасностях своим родным и близким.

Источник

Спам-ловушки: как email-маркетологу не попасть в капкан

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Блочный редактор писем, готовые шаблоны email, формы подписки и автоматизация. Запускайте email-рассылки, чтобы быть на связи со своими клиентами.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Как развиваться в диджитал. Какие каналы сейчас в тренде. Как зарабатывать больше и поднимать чек за свои услуги.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Рассказываем про инструменты для email-рассылок. Обсуждаем лучшие примеры и механики. Говорим о деньгах. Публикуем вакансии.

Больше — не значит лучше

Гигиена списка всегда была и будет одной из ежедневных задач email-маркетологов. Но зачем заботиться о гигиене списка? Ведь чем больше писем мы отправим, тем больше вероятность, что кто-то из адресатов купит наш товар. Так ведь?

Больше список — лучше?

Одно из самых больших заблуждений — думать, что чем больше список, тем лучше. Новички часто не понимают, почему нельзя собирать контакты на сайтах потенциальных клиентов и «докупать» базу.

Как сохранить репутацию

Первое, что нужно сделать — чтобы ваши письма отправлялись тем, кто их действительно ждет. Неактивные подписчики (те, которые не открывают письма и не переходят по ссылкам) должны быть выброшены из списка рассылки.

К чему приводит плохая гигиена списка:

Еще одно следствие плохой гигиены списка — нахождение в вашем списке email адресов особого типа — спам-ловушек.

Что такое спам-ловушка?

Спам-ловушка это email-адрес или целый сервер, специально созданные для того, чтобы отслеживать нежелательный трафик и определять его источник.

Провайдеры почты и антиспам-службы используют спам-ловушки, чтобы следить за отправителями и определять их репутацию. Поэтому очень важно свести к минимуму количество спам-ловушек в вашем списке адресов. Большое количество спам-ловушек в списке говорит о том, что со списком что-то не в порядке (ниже мы разберем, как ловушки попадают в список).

Чем опасны спам-ловушки в списке рассылки:

Как вы думаете, есть ли у вас в списке спам-ловушки? Много ли их? Хотите узнать?

Типы спам-ловушек

Есть два типа спам-ловушек.

1. Нетронутые спам-ловушки

Это адреса, которые никогда не были в употреблении обычными пользователями.

Они созданы почтовым провайдером или спам-службой специально, чтобы отслеживать недобросовестных отправителей. Они могут попасть в ваш список, если вы собираете адреса с помощью харвеста, парсите сайты потенциальных клиентов или же покупаете списки.

Харвест — это автоматический сбор адресов в интернете специальной программой. Программа собирает данные (парсит) с сайтов и находит там все email адреса.

2. Повторно используемые спам-ловушки

Это адреса, которые когда-то принадлежали реальным людям. Возможно, они подписывались на рассылки, но потом перестали этими адресами пользоваться.

Через некоторое время такие адреса могут стать спам-ловушками. Например, у Mail.Ru адрес может стать спам-ловушкой после года неактивности.

Если ваша рассылка приходит на такие адреса, это тоже сигнал для почтового провайдера, что с вашим списком не все в порядке. Хотя, возможно, дело просто в плохой гигиене списка.

Чем опасны спам-ловушки

Опасность спам-ловушки зависит от типа ловушки, на которую приходит рассылка, от частоты отправки на нее и от того, как провайдер этой спам-ловушки обрабатывает попадания писем. В результате, репутация отправителя может быть снижена. Это вызовет отклонения в результативности писем и снижение доставляемости. Ваш IP-адрес может быть добавлен в черный список.

Вообще спам-ловушки — одна из основных причин попадания адреса в черный список. Например, попадание на спам-ловушку Yahoo или AOL может вызвать добавление домена отправителя в черный список без истечения срока действия, и удалить его по запросу будет очень сложно.

Если же вы попадаете на спам-ловушку какой-то антиспам-службы вроде SpamCop или SpamHaus, может пострадать доставка на ВСЕ почтовые провайдеры, которые проверяют наличие вашего IP-адреса или домена в черном списке этих компаний.

Как спам-ловушки оказались в списке

Вот основные причины, по которым в вашем списке рассылки могут оказаться спам-ловушки:

Что делать

Вот как избежать отправки писем на адреса спам-ловушек:

совет

Чтобы не попасть в спам-ловушки, старайтесь хотя бы раз в месяц делать рассылки по всей базе. Также рекомендуем перемещать старые и неактивные адреса (те, кто не открывал письма последние 6 месяцев) в отдельный список. Их нужно отписать или реанимировать.

Источник

Проверка на спам: 7 лучших сервисов для тестирования писем

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Блочный редактор писем, готовые шаблоны email, формы подписки и автоматизация. Запускайте email-рассылки, чтобы быть на связи со своими клиентами.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Как развиваться в диджитал. Какие каналы сейчас в тренде. Как зарабатывать больше и поднимать чек за свои услуги.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Рассказываем про инструменты для email-рассылок. Обсуждаем лучшие примеры и механики. Говорим о деньгах. Публикуем вакансии.

Мы собрали 7 сервисов, которые помогут оценить, куда попадёт письмо: во «Входящие» или в «Спам». Они пригодятся, чтобы проверить рассылку перед отправкой или выяснить причину, если она уже попала в «Спам».

Матчасть

Спам — это массовая рассылка рекламы тем, кто не соглашался её получать. Спам бывает не только в email — нежелательные сообщения могут приходить и в SMS, и в мессенджерах.

Что влияет на попадание в спам ↓

Попадет рассылка в спам или нет, решают спам-фильтры. Это алгоритмы почтовых провайдеров (Mail.ru, Gmail), которые оценивают несколько показателей:

Рассылка уже попала в спам. Что делать? ↓

2. Написать письмо в техподдержку почтового провайдера. У нас есть подробный гайд, как это сделать.

3. Ждать ответ. Если вы устранили причину, то, скорее всего, рассылку разблокируют. Если вы не знаете причину, из-за которой письмо попало в спам, то, возможно, техподдержка подскажет, что нужно исправить.

Источник

Как проверить не попал ли домен в спам лист

К сожалению, ситуации, когда подписчикам не доходит почта от конкретного отправителя, встречается довольно часто. Наиболее вероятной причиной этого является попадание домена в черные списки или спам-листы. Даже если рассылки делаются по легально собранной собственной базе подписчиков, IP-адрес отправителя все равно может попасть в blocklist. Предотвратить вероятность попадания в спам невозможно и никто от этого не застрахован.

Хорошая новость состоит в том, что дело это поправимое: из блеклистов можно выйти, а вероятность повторного попадания туда свести к минимуму.

Как проверить домен в спам-листах и что делать, если он все-таки оказался в черных списках — рассказываем во всех деталях.

Проверка спам-листов

Возможность проверки домена в спам-листах доступна каждому пользователю сети. Вся информация есть в открытом доступе. Достаточно зайти на сайт одного или нескольких специальных сервисов и посмотреть, нет ли в числе доменов с сомнительной репутацией вашего. Сделать это можно в основном бесплатно, но некоторые сервисы, как, например, senderscore, просят поделиться с ними информацией о вас и вашей компании:

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Полезные сервисы для проверки

Для примера приведем процедуру проверки домена в spamhaus.org.

На главной странице сервиса находим пункт Blocklist Removal Center, переходим в эту вкладку и находим окно для проверки домена, куда вводится адрес сайта. Чтобы показать результат на примере, проверяем esputnik.com: Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Нашего домена в блоклистах этого сервиса не оказалось: Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Процедура проверки домена в других сервисах практически идентична.

Вывод сайта из спам-листа

Если при проверке статуса домена окажется, что он в черном списке, некоторые из таких сервисов даже предоставят пользователю инструкции по восстановлению репутации. Именно так это происходит в spamhaus.

Как правило, подобного рода сервисы являются автоматическими. На практике это означает, что если 2-3 недели с провинившегося IP не рассылается идентифицированная как спам почта, то этот адрес скорее всего будет исключен из черных списков.

Целью деятельности данных сервисов является не бесконечное наращивание базы когда-либо уличенных в нелегитимных рассылках доменов, а предоставление пользователям актуальной информации о нарушителях. Исходя из этих приоритетов, домены исключаются из спам-листов, как только прекращают подозрительную активность.

Вывод сайта из спам-листа автоматическим способом обычно занимает от нескольких дней до нескольких недель. Но лучше не тратить слишком много времени на ожидание.

Процесс удаления из спам-листов можно ускорить, если обратиться напрямую в службу поддержки сервиса. В частности, в spamhouse ссылка на отправку запроса на удаление из черного списка появляется сразу же, как только сайт при проверке был найден в черном списке. Нажав на эту ссылку, можно увидеть форму с полями для ввода домена и адреса корпоративной электронной почты. Если это будет личный ящик на gmail, mail.ru или другом открытом почтовике, сервис просто не примет такой запрос. После обработки запроса на указанный емейл отправляется ссылка для удаления сайта из блоклиста.

Причины попадания домена в blacklist

Необходимо ограничивать не только количество писем, но и скорость отправки, чтобы на протяжении дня письма уходили небольшими партиями, например по 100 писем в час в первый день.

Если не включен строгий DMARC (зависит от заданных настроек), то при достижении суточного лимита по домену рассылка отправится и в большем объеме, но остаток писем при этом высылается с подписями нашего ESP, а не компании-отправителя. На следующий день количество писем, которое доступно для отправки с домена компании увеличивается и так далее, пока день прогрева не обеспечит возможность отправки всех писем со своими цифровыми подписями.

Если политика DMARC отлична от none (нестрогой, когда не делается ничего, кроме подготовки отчетов), тогда будет отправлен только тот объем сообщений, который соответствует текущему дню прогрева. Остальные письма не отправятся, так как все равно с большой долей вероятности будут отвергнуты почтовым сервером как не соответствующие политике DMARC.

В нашем сервисе контроль прогрева верифицированного домена выполняется автоматически. Это достигается подсчетом отправленных писем за каждый день по часто используемым доменам: mail.ru, gmail.com, yandex.ru, ukr.net, i.ua, rambler.ru, list.ru, yandex.ua, meta.ua, yahoo.com. Отправка рассылок через eSputnik на домены Microsoft (hotmail.com, live.com, msn.com, passport.com, outlook.com) без верификации домена не разрешена, так как эти почтовики пристально следят за содержимым писем и реакцией пользователей. Если контент сомнительного качества, они снижают рейтинг отправителя.

Профилактика попадания в спам-листы

Вывод

Универсального рецепта от попадания в спам-листы нет, но можно принимать профилактические меры и тем самым обезопасить свой домен. Если неприятность случилась и домен оказался в черном списке, не стоит отчаиваться. Воспользуйтесь инструкцией от сервиса, если такая была предоставлена, или отправьте запрос на вывод из блоклистов.

Источник

Вычисляем по IP: как бороться со спамом в социальной сети

Спам в социальных сетях и мессенджерах — это боль. Боль и для честных пользователей, и для разработчиков. Как с ней борются в Badoo, рассказал Михаил Овчинников на Highload++, далее текстовая версия этого доклада.

О спикере: Михаил Овчинников работает в Badoo и последние пять лет занимается антиспамом.

В Badoo зарегистрировано 390 миллионов пользователей (данные на октябрь 2017). Если сравнивать размер аудитории сервиса с населением России, то можно сказать, что в нашей стране по статистике каждых 100 млн человек охраняет 500 тысяч полицейских, а в Badoo каждые 100 млн пользователей защищает от спама всего один сотрудник Антиспама. Но даже такое небольшое количество программистов способно защитить пользователей от разных неприятностей в интернете.

У нас большая аудитория, и в ней могут быть разные пользователи:

С кем приходится сражаться

Спам бывает разный, часто его вообще не отличить от поведения обычного пользователя. Он может быть ручной или автоматический — к нам тоже хотят попасть боты, которые занимаются автоматической рассылкой.

Возможно, вы тоже когда-то писали ботов — занимались созданием скриптов для автоматического постинга. Если вы этим занимаетесь и сейчас, то лучше дальше не читайте — вам нельзя ни в коем случае узнать то, что я сейчас расскажу.

Это, конечно, шутка. В статье не будет информации, которая упростит жизнь спамерам.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Итак, с кем нам приходится сражаться? Это спамеры и мошенники.

Спам появился очень давно, с самого начала развития интернета. В нашем сервисе спамеры, как правило, пытаются зарегистрировать аккаунт, загрузив туда фотографию привлекательной девушки. В простейшем варианте они начинают рассылать самые очевидные виды спама — ссылки.

Более сложный вариант — когда люди не шлют ничего откровенного, не посылают никаких ссылок, ничего не рекламируют, но выманивают пользователя в более удобное для них место, например в мессенджеры: Skype, Viber, WhatsApp. Там они смогут без нашего контроля что угодно продавать пользователю, продвигать и т.д.

Но спамеры — это не самая большая проблема. Они действуют очевидно, и с ними легко бороться. Гораздо более сложные и интересные персонажи — это мошенники-скамеры, которые выдают себя за другого человека и стараются обмануть пользователей всеми способами, которые есть в интернете.

Конечно, действия и спамеров, и скамеров не всегда сильно отличаются от поведения обычных пользователей, которые тоже иногда так делают. Есть много формальных признаков и у тех, и у других, которые не позволяют четко провести границу между ними. Это практически никогда невозможно сделать.

Как боролись со спамом в Мезозойскую эру

Сначала я покажу простейшие методы борьбы со спамом, которые каждый может у себя реализовать. Потом подробно расскажу про более сложные системы, которые мы разработали с применением машинного обучения и прочей тяжелой артиллерии.

Простейшие способы борьбы со спамом

Ручная модерация

В любой сервис можно нанять модераторов, которые будут вручную просматривать контент пользователя и его профиль, и решать, что с этим пользователем делать. Обычно такой процесс выглядит, как поиск иголки в стоге сена. У нас огромное количество пользователей, модераторов меньше.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Кроме того, что модераторов очевидно нужно много, нужна большая инфраструктура. Но, на самом деле, самое сложное другое — возникает проблема: как, наоборот, защитить пользователей от модераторов.

Нужно сделать так, чтобы модераторы не получали доступа к персональным данным. Это важно, потому что модераторы теоретически могут тоже попытаться навредить. То есть нужен антиспам для антиспама, чтобы модераторы были под жестким контролем.

Очевидно, что всех пользователей таким образом не проверишь. Тем не менее модерация в любом случае нужна, потому что любым системам в дальнейшем нужно обучение и человеческая рука, которая будет определять, что делать с пользователем.

Сбор статистики

Можно попробовать использовать статистику — по каждому пользователю собирать различные параметры.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Пользователь Иннокентий заходит со своего IP-адреса. Первое, что мы делаем — логируем, с какого IP-адреса он зашел. Дальше строим между всеми IP-адресами и всеми пользователями прямой и обратный индекс, чтобы можно было получить все IP-адреса, с которых заходит определенный пользователь, а также всех пользователей, которые зашли с определенного IP-адреса.

Таким образом мы получаем связь между атрибутом и пользователем. Таких атрибутов может быть достаточно много. Мы можем начать собирать информацию не только об IP-адресах, но еще и фотографиях, устройствах с которых заходил пользователь — обо всем, что можем определить.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Мы собираем такую статистику и связываем ее с пользователем. Для каждого из атрибутов мы можем собирать подробные счетчики.

У нас есть ручная модерация, которая решает, какой пользователь хороший, какой плохой, и в какой-то момент пользователь блокируется или признается нормальным. Мы можем по каждому из атрибутов отдельно получить данные, сколько всего пользователей, сколько из них заблокировано, сколько признано нормальными.

Обладая такой статистикой по каждому из атрибутов, мы можем примерно определить, кто спамер, кто нет.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Допустим, у нас есть два IP-адреса — на одном 80% спамеров, на втором 1%. Очевидно, что первый гораздо более заспамленный, с ним надо что-то делать и применять какие-то санкции.

Самое простое — это написать эвристические правила. Например, если заблокированных пользователей больше 80%, а тех, кто признан нормальным — меньше 5%, то этот IP-адрес считается плохим. Дальше мы баним или что-то еще делаем со всеми пользователями с таким IP-адресом.

Сбор статистики из текстов

Помимо очевидных атрибутов, которые есть у пользователей, можно также заняться анализом текста. Можно автоматически разбирать пользовательские сообщения, вычленять из них все, что имеет отношение к спаму: упоминания мессенджеров, телефонов, email, ссылок, доменов и т.д., и по ним собирать точно такую же статистику.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Например, если какое-то доменное имя было отправлено в сообщениях 100 пользователями, из них 50 было заблокировано, значит, это доменное имя плохое. Его можно вносить в черные списки.

Мы получим большое количество дополнительной статистики по каждому из пользователей на основе текстов сообщений. Для этого никакого машинного обучения не нужно.

Стоп-слова

Помимо очевидных вещей — телефонов и ссылок — можно вычленять из текста фразы или слова, которые особенно характерны для спамеров. Можно вести такой список стоп-слов вручную.

Например, на аккаунтах спамеров и мошенников часто встречается фраза: «Здесь очень много фейков». Они пишут, что они вообще единственные здесь, кто настроен на что-то серьезное, все остальные фейки, которым ни в коем случае нельзя доверять.

На сайтах знакомств по статистике спамеры чаще, чем обычные люди, употребляют фразу: «Я ищу серьезные отношения». Вряд ли обычный человек так напишет на сайте знакомств — с вероятностью 70% это спамер, который пытается кого-то завлечь.

Поиск похожих аккаунтов

Обладая статистикой по атрибутам и по стоп-словам, найденным в текстах, можно построить систему для поиска похожих аккаунтов. Это нужно, чтобы находить и банить все аккаунты, созданные одним и тем же человеком. Спамер, который попал под блокировку может тут же зарегистрировать новый аккаунт.

Например, пользователь Гарольд заходит, регистрируется на сайте и предоставляет свои достаточно уникальные атрибуты: IP-адрес, фотографию, стоп-слово, которое он употребил. Может быть, он даже зарегистрировался с фейкового аккаунта Facebook.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Мы можем найти всех пользователей, похожих на него, у которых совпадают один или несколько из этих атрибутов. Когда мы точно знаем, что эти пользователи связаны, с помощью того самого прямого и обратного индекса мы находим атрибуты, а по ним уже всех пользователей, и ранжируем их. Если, допустим первого Гарольда мы заблокируем, то остальных тоже легко «убить» с помощью этой системы.

Все способы, которые я сейчас описал, очень простые: легко собрать статистику, легко потом по этим атрибутам искать пользователей. Но, несмотря на лёгкость, с помощью таких простых штук — простой модерации, простой статистики, простых стоп-слов — удаётся победить 50% спама.

В нашей компании за первые полгода работы отдел Антиспама победил 50% спама. Остальные 50%, как известно, даются гораздо сложнее.

Как усложнить жизнь спамерам

Спамеры что-то выдумывают, пытаясь усложнить жизнь нам, а мы пытаемся бороться с ними. Это бесконечная война. Их гораздо больше, чем нас, и на каждый наш шаг они придумывают свою многоходовочку.

Уверен, где-то проходят конференции спамеров, на которых докладчики рассказывают, как они победили Антиспам Badoo, про свои KPI, или про то, как построить масштабируемый отказоустойчивый спам с применением моднейших технологий.

К сожалению, нас на такие конференции не приглашают.

Но мы можем усложнить спамерам жизнь. Например, вместо того чтобы напрямую показывать пользователю окошко «Вы заблокированы», можно применить так называемый Stealth banning — это когда мы пользователю не говорим о том, что он забанен. Он даже не должен об этом подозревать.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Пользователь попадает в песочницу (Silent Hill), где как будто все настоящее: можно отправлять сообщения, голосовать, но на самом деле это все уходит в пустоту, в туман. Никто это никогда не увидит и не услышит, никто не получит его сообщений и голосов.

У нас был случай, когда один спамер долго спамил, продвигал свои нехорошие товары и услуги, а через полгода решил воспользоваться сервисом по назначению. Он зарегистрировал свой настоящий аккаунт: реальные фотографии, имя и т.д. Естественно, наша система поиска похожих аккаунтов быстро его вычислила и поместила в Stealth ban. После этого он еще в течение полугода писал в пустоту о том, что ему очень одиноко, никто не отвечает. В общем, изливал всю свою душу туману Silent Hill, но не получал никакого ответа.

Спамеры, конечно, не дураки. Они пытаются каким-то образом определить, что они попали в песочницу и что их заблокировали, бросить старый аккаунт и найти новый. У нас даже появляется иногда мысль о том, что хорошо бы несколько таких спамеров отправить в песочницу вместе, чтобы они там друг другу уже продавали все, что хотят, и развлекались, как угодно. Но пока мы до этого не дошли, а придумываем другие способы, например, фото- и телефонная верификация.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Как известно, спамеру, который является ботом, а не человеком сложно пройти верификацию по телефону или по фотографии.

В нашем случае верификация по фотографии выглядит так: пользователя просят сфотографироваться с определенным жестом, полученная фотография сравнивается с фотографиями, которые уже загружены в профиль. Если лица одинаковые, то, скорее всего, человек настоящий, загрузил свои реальные фотографии и можно от него на какое-то время отстать.

Спамерам пройти эту проверку нелегко. У нас даже внутри компании появилась небольшая игра, которая называется «Угадай, кто спамер». Дается четыре фото, нужно понять, кто из них является спамером.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

На первый взгляд, эти девушки выглядят совершенно безобидно, но как только начинают проходить фотоверификацию, то с какого-то момента становится понятно, что одна из них совершенно не та, за кого себя выдает.

В любом случае спамерам тяжело с фотоверификацией бороться. Они действительно страдают, пытаются как-то ее обойти, обмануть, и демонстрируют все свои навыки фотошопа.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Спамеры делают все, что могут, и иногда думают, наверное, что это все полностью обрабатывается какими-то невероятными современными технологиями, которые настолько плохо построены, что их так легко обмануть.

Они не знают, что каждую фотографию потом еще перепроверяют вручную модераторы.

Нет времени!

На самом деле, несмотря на то что мы придумываем различные способы, как усложнить спамерам жизнь, обычно не хватает времени, потому что антиспам должен работать мгновенно. Он должен найти и обезвредить пользователя еще до того, как он начал свою негативную активность.

Самое лучшее, что можно сделать — это еще на этапе регистрации определить, что пользователь является не очень хорошим. Это можно сделать, например, с помощью кластеризации.

Кластеризация пользователей

Мы можем прямо после регистрации собрать всю возможную информацию. У нас еще нет ни девайсов, с которых пользователь заходит, ни фотографий, нет никакой статистики. Нам не за что его отправлять на верификацию, он еще не сделал ничего подозрительного. Но мы уже обладаем первичной информацией:

Получив такие группы пользователей (кластеры), мы можем делать любые действия. Если пользователи очень похожи (кластер сильно связанный), то, скорее всего, это массовая регистрация, ее нужно сразу же пресекать. Пользователь еще не успел ничего сделать, только нажал кнопку «Зарегистрироваться» — а все, он уже попал в песочницу.

По кластерам можно собирать статистику — если 50% кластера заблокировано, то остальные 50% можно отправить на верификацию, или отдельно все кластеры модерировать вручную, просматривать те атрибуты, по которым они совпадают, и принимать решение. На основе таких данных, аналитики могут выделять паттерны.

Паттерны

Паттерны — это наборы простейших атрибутов пользователей, которые нам сразу известны. Некоторые из паттернов на самом деле очень эффективно работают против определенных типов спамеров.

Например, рассмотрим сочетание трех абсолютно независимых, достаточно общих атрибутов:

Таких паттернов можно извлечь сколько угодно на каждый тип спамера. Это гораздо эффективнее и проще, чем просматривать вручную все аккаунты или даже кластеры.

Кластеризация текстов

Помимо кластеризации пользователей по атрибутам, можно находить пользователей, которые пишут одинаковые тексты. Конечно, это уже не так просто. Дело в том, что наш сервис работает на очень многих языках. Более того, пользователи часто пишут с сокращениями, на сленге, иногда с ошибками. Ну а сами сообщения обычно очень короткие, буквально 3–4 слова (примерно 25 символов).

Соответственно, если мы хотим находить похожие тексты среди миллиардов сообщений, которые пишут пользователи, нам нужно придумать что-то необычное. Если пытаться использовать классические методы на основе анализа морфологии и настоящего честного процессинга языка, то со всеми этими ограничениями, сленгами, сокращениями и кучей языков, это сделать очень сложно.

Можно поступить чуть более просто — применить алгоритм n-gram. Каждое сообщение, которое появляется, разбивается на n-граммы. Если n=2, то это биграммы (пары букв). Постепенно все сообщение разделяется на пары букв и собирается статистика, сколько раз каждая биграмма встречается в тексте.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

На биграммах можно не останавливаться, а добавить триграммы, скипграммы (статистика по буквам через 1, 2 и т.д. букв). Чем больше мы получим информации, тем лучше. Но даже биграммы уже достаточно хорошо работают.

Дальше мы из биграмм каждого сообщения получаем вектор, длина которого равна квадрату длины алфавита.

С этим вектором очень удобно работать и его кластеризовать, потому что:

Поэтому нужно добавить фильтрацию. Так как кластеры уже есть, они достаточно маленькие, мы легко можем внутри кластера сделать фильтрацию применив Stemming или Bag of Words. Внутри маленького кластера можно буквально все сообщения со всеми сравнить, и получить тот кластер, в котором гарантированно находятся одинаковые сообщения, которые совпадают не только по статистике, но и на самом деле.

Итак, мы сделали кластеризацию — и, тем не менее, для нас (и для кластеризации) очень важно знать правду о пользователе. Если он пытается от нас скрыть правду, то нам нужно предпринять какие-то действия.

Сокрытие информации

Типичный вид сокрытия информации — это VPN, TOR, Proxy, Анонимайзеры. Пользователь использует их, пытаясь сделать вид, что он из Америки, хотя на самом деле он из Нигерии.

Для того, чтобы победить эту проблему, мы взяли самый известный учебник «Как вычислить по IP».

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

С помощью этого учебника мы написали классификатор VPN — то есть такой классификатор, который получает на вход IP-адрес и на выходе говорит, является ли этот IP-адрес VPN, Proxy или нет.

Для реализации классификатора нам понадобится несколько ингредиентов:

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Мы выбрали деревья решений, потому что они очень хорошо умеют находить те самые паттерны — конкретные сочетания провайдеров, стран, статистики и т.д., которые в итоге позволяют определить, что IP-адрес является VPN.

Конечно, эти данные очень общие. Как бы мы хорошо не обучали классификатор, как бы мы не старались применять advanced-техники, он все равно не будет работать со 100% точностью. Поэтому здесь ключевым фактором являются дополнительные сетевые проверки.

Как только мы получили информацию о том, что IP-адрес якобы принадлежит VPN, мы можем на самом деле проверить, что же этот IP-адрес из себя представляет. Можно попытаться к нему подключиться, посмотреть, какие на нем открыты порты. Если там SOCKS-proxy, можно попробовать открыть соединение и точно определить является данный IP-адрес анонимайзером или нет.

Кроме того, есть еще замечательная технология, внедрение которой у нас пока в планах, которая называется p0f. Это утилита, которая на сетевом уровне делает fingerprinting трафика и позволяет сразу определить, что находится на той стороне соединения: обычный пользовательский клиент, VPN-клиент, Proxy и т.д. Утилита содержит большой набор паттернов, которые все это определяют.

Наиболее подозрительное действие

После того, как мы написали различные системы, кластеризаторы, классификаторы, собрали статистику, мы задумались: что самого подозрительного пользователь может совершить на нашем сервисе? Зарегистрироваться — это уже подозрительно! Если пользователь зарегистрировался, то мы сразу начинаем на него смотреть с очень хитрым прищуром и всячески его анализировать, пытаясь понять, что же он имел ввиду.

У нас часто возникает внутреннее желание — а не забанить ли нам сразу всех после регистрации? Это бы значительно облегчило работу отдела Антиспама. Мы сразу сможем пить чай в 2 раза дольше, и никаких проблем у нас не будет.

Чтобы такие мысли пресекать не только у себя, но и у систем, которые мы пишем, и не банить всех хороших пользователей, особенно сразу после регистрации, мы вынуждены создавать системы, которые борются с другими нашими системами, то есть организуют сами себе ограничения.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Как можно себя ограничить, чтобы не банить хороших пользователей, не ошибиться и не запутаться?

«User Decency»

Классифицируем пользователей по честности — сделаем изолированную модель, которая будет брать все положительные характеристики пользователя и делать по ним анализ.

Пример характеристик «хорошего» поведения:

Взяв пользователя и прогнав его через эту модель, мы получим коэффициент, который мы называем «коэффициентом честности». Если он равен нулю, то, как правило, это значит, что у нас почти нет информации об этом пользователе. Тогда никакой дополнительной информации мы из классификации не получаем.

Если коэффициент честности пользователя равен 1, то, скорее всего, пользователь представляет из себя хорошего парня, мы его трогать не будем — никаких верификаций и бана к нему не придет.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Такая изолированная штука позволяет нам предотвратить многие типичные ошибки.

False positive

Второе, что можно сделать — искать различные ложноположительные срабатывания. Бывает, что пользователи случайно заходят с одного IP-адреса. Например, двое сидят в интернет-кафе, даже компьютер может быть у них один и тот же. Браузер, fingerprint, который мы считаем по компьютеру, по браузеру, по устройству — все будет абсолютно совпадать, и мы можем посчитать, что оба пользователя являются спамерами, хотя не факт, что они как-то связаны.

Другой пример: хороший пользователь в диалоге со спамером может переспросить в ответ на рекламу: «Эй, я не понял — что такое Pornhub — зачем ты мне его рекламируешь?» В такой момент система видит, что пользователь написал стоп-слово и может посчитать, что этот пользователь является спамером и его нужно как можно скорее забанить.

Поэтому нам приходится заниматься поиском аномалий. Мы берем пользователей, их атрибуты, и ищем среди них тех пользователей, которые попали в плохую компанию совершенно случайно.

Для примера возьмем стоп-слово «Pornhub». По каждому стоп-слову у нас есть статистика всех пользователей, которые когда-либо его употребляли.

Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

В какой-то момент новый пользователь Патрик употребляет то же самое стоп-слово, и мы должны добавить его в эту плохую компанию и забанить.

Здесь нужно проверить, отличается ли новый пользователь Патрик от всех старых, уже известных спамеров. Можно сравнить его типовые атрибуты: пол, возраст, провайдер, приложение, страна и т.д. Здесь нам важно понять, насколько велико «расстояние» в этом пространстве атрибутов между пользователем и основной группой. Если оно очень большое, то Патрик, скорее всего, попал туда случайно. Он ничего плохого не имел в виду, его не стоит сразу банить, а лучше отправить на ручную проверку.

Когда мы построили такую систему, у нас стало гораздо меньше случаться типовых ложноположительных срабатываний.

Универсальный мега-классификатор

Вы можете спросить — а почему бы не сделать сразу большую классную систему с MachineLearning, нейросетями и деревьями решений, которая будет получать на вход всю информацию о пользователях и выдавать просто 0 или 1 — человек спамер или нет.
Что такое спам база. Смотреть фото Что такое спам база. Смотреть картинку Что такое спам база. Картинка про Что такое спам база. Фото Что такое спам база

Пытаясь создать одну универсальную модель, очень легко прийти к ситуации, когда перед нами окажется черный ящик, который сложно контролировать. В нем хорошее от плохого не отделено, система сама от себя никак не изолирована, и от ошибок защищена только ручной проверкой и косвенными метрикам. К тому же на большом объёме данных собрать всю информацию и статистику, чтобы подать мега-системе на вход, достаточно сложно.

Более того, все известные системы машинного обучения представляют собой не одну модель — это десяток моделей. Любой голосовой помощник или система распознавания лиц — это несколько моделей, соединенных в одну очень сложную систему.

В итоге нам стало понятно, что гораздо более правильным (с нашей точки зрения) является путь, когда создаются отдельные классификаторы и системы кластеризации, которые решают свою отдельную задачу. Идеально, чтобы, как в нашем случае, на каждый отдельный тип спама создавалась отдельная модель и отдельно же контролировалась различными способами: другими моделям, косвенными метриками, а также вручную. Только так можно будет надеяться избежать большинства ложных срабатываний.

Приходите на HighLoad++ 2018, в этом году будет много докладов по машинному обучению и искусственному интеллекту, например:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *