Что такое репрезентативность информации

Репрезентативность информации

Репрезентативность информации [representativity of infor­mation] — представительность информации, достаточная для обоснования решения, ради которого она собрана. Например, в выборочном методе статистики репрезентативность выборки. — это соответствие характеристик выборки характеристикам генеральной совокупности. Проще: если выборка репрезентативна, то по ее свойствам можно судить о генеральной совокупности; если выборка произведена неправильно, говорят об ошибке репрезентативности. (Хрестоматийным примером такой ошибки является проведенный в США еще в 20-е годы опрос общественного мнения людей, отобранных по телефонной книге, казалось бы, беспристрастно, случайно. Его организаторы не учли, что телефоны были тогда лишь у зажиточной части населения, что не могло не дать искаженных результатов.)

Смотреть что такое «Репрезентативность информации» в других словарях:

репрезентативность информации — Представительность информации, достаточная для обоснования решения, ради которого она собрана. Например, в выборочном методе статистики репрезентативность выборки. это соответствие характеристик выборки характеристикам генеральной совокупности.… … Справочник технического переводчика

репрезентативность информации — 1.1.11 репрезентативность информации: Представительность информации, достаточная для того, чтобы считать ее достоверной. Источник: РД 52.10.728 2010: Основные требования к … Словарь-справочник терминов нормативно-технической документации

РЕПРЕЗЕНТАТИВНОСТЬ — (отфранц. representatif показательный, характерный), представительность, мера возможности восстановить, воспроизвести представление о целом по его части или мера возможности распространить представление о части на включающее эту часть… … Философская энциклопедия

Репрезентативность — (от франц. representatif представляющий что либо) важнейшее свойство той или иной выборки информации, состоящее в отражении (представлении) ею особенностей всей генеральной совокупности (напр., всей ценопопуляции). О репрезентативности выборки… … Экологический словарь

РЕПРЕЗЕНТАТИВНОСТЬ — Когнитивная эвристика, при которой решения принимаются на основании того, насколько репрезентативным кажется данный отдельный случай, независимо от другой информации о его фактической вероятности. Например, когда люди читают о человеке, который… … Толковый словарь по психологии

РЕПРЕЗЕНТАТИВНОСТЬ — свойство со вокупности выборочной (см.) воспроизводить параметры и значимые элементы структуры совокупности генеральной (см.). Термин репрезентативная выборка применительно к соц. экономич. исследованиям впервые ввел в научн. лексикон норвежский… … Российская социологическая энциклопедия

РЕПРЕЗЕНТАТИВНОСТЬ — – 1) свойство выборочной совокупности представлять характеристики генеральной совокупности; означает, что с некоторой наперед заданной или определенной статистически погрешностью можно считать, что представленное в выборочной совокупности… … Современный образовательный процесс: основные понятия и термины

РЕПРЕЗЕНТАТИВНОСТЬ — – свойство выборки воспроизводить интересующие конфликтолога характеристики генеральной совокупности. Под формированием Р. выборки понимается построение выборочной совокупности, которая воспроизводит статистически структуру генеральной… … Энциклопедический словарь по психологии и педагогике

Репрезентативность — свойство выборочной совокупности воспроизводить характеристики генеральной совокупности. Другими словами, Р. выборки означает, что с некоторой погрешностью можно отождествить установленное на выборочной совокупности распределение изучаемых… … Социологический справочник

ИЗМЕРЕНИЕ НАДЕЖНОСТИ СОЦИОЛОГИЧЕСКОЙ ИНФОРМАЦИИ — один из этапов, необходимых для обеспечения требуемого качества социологич. исследования. Надежность является наиболее общей характеристикой качества эмпирич. данных, полученных в социологич. исследовании. Под надежной понимают информацию, в к… … Российская социологическая энциклопедия

Источник

Простыми словами о выборке

Что такое репрезентативность информации. Смотреть фото Что такое репрезентативность информации. Смотреть картинку Что такое репрезентативность информации. Картинка про Что такое репрезентативность информации. Фото Что такое репрезентативность информации

Привет. Я UX-исследователь в СКБ Контур. Чаще всего в работе я использую качественные методы исследований — глубинные интервью и модерируемые юзабилити-тестирования. Количественные исследования без подготовленной инфраструктуры со стороны разработки более ресурсозатратные, поэтому самостоятельно их провести сложнее.

Но самое сложное для меня в проведении количественного исследования — это выборка. Мне ближе гуманитарная сторона исследовательской работы, поэтому разобраться в выборке сложнее, чем в техниках ведения интервью. Если у тебя такая же проблема, эта статья будет полезна.

Ниже я попробовала просто рассказать о выборке, репрезентативности и методах отбора при проведении количественного исследования.

Что такое репрезентативность информации. Смотреть фото Что такое репрезентативность информации. Смотреть картинку Что такое репрезентативность информации. Картинка про Что такое репрезентативность информации. Фото Что такое репрезентативность информации

Выборка и репрезентативность

Опрос — это количественный метод, направленный на получение точной, объективной и статистически значимой информации. Если качественные методы помогают в формулировке гипотез, то количественные — масштабируют и проверяют эти гипотезы на всей целевой аудитории.

Поэтому важно проводить отбор респондентов таким образом, чтобы выборочная совокупность отражала состав всей генеральной совокупности.

В социологии есть термин — единица наблюдения. Это может быть один человек, группа или сообщество в зависимости от целей исследования.

Генеральная совокупность — это вся совокупность единиц наблюдения, имеющих отношение к теме исследования.

Например, если ты проводишь продуктовое исследование, то скорее всего твоя генеральная совокупность — это все пользователи сервиса или определенный сегмент.

Выборочная совокупность — часть генеральной совокупности, которую вы изучаете в ходе исследования с помощью разработанных вами инструментов (анкета, гайд и прочее).

Например, в ходе исследования было опрошено 400 респондентов среди всех пользователей сервиса. Это твоя выборочная совокупность.

Выборка должна быть репрезентативной, иначе результаты количественного исследования будут сомнительными.

Репрезентативность — обеспечение в выборочной совокупности наличия всех видов единиц генеральной совокупности в достаточном количестве.

Репрезентативность имеет качественное и количественное выражение. Качественная репрезентация обязывает включить в выборку все возможные варианты респондентов, особенно, если какой-то признак влияет на опыт использования сервиса.

Например, выборка не будет репрезентативной если ты опросишь только новых пользователей (если это не оправдано целями исследования). Особенно это исказит результаты исследования, если длительность использования напрямую влияет на проверку гипотезы.

Что такое репрезентативность информации. Смотреть фото Что такое репрезентативность информации. Смотреть картинку Что такое репрезентативность информации. Картинка про Что такое репрезентативность информации. Фото Что такое репрезентативность информации

На практике, особенно в онлайн-опросах, качественная репрезентативность может страдать. Ею можно пренебречь, если вы уверены, что на проверку гипотезы не повлияет принадлежность респондента к той или иной группе. Онлайн-опросы предполагают стихийную выборку и поэтому предусмотреть присутствие всех типов респондентов сложно. Про стихийную выборку подробнее я расскажу ниже.

Чтобы соблюсти количественную репрезентацию нужно обеспечить достаточное число респондентов, в том числе по каждой группе внутри выборки.

Например, если ты пригласишь на опрос 80% новых пользователей и лишь 20% пользователей с опытом — это тоже исказит результаты (опять же если это не предусмотрено дизайном исследования).

И, конечно, для того, чтобы масштабировать результаты опроса на всю генеральную совокупность (в нашем примере — на всех пользователей), нужно в целом рассчитать количество человек, которое ты планируешь пригласить для прохождения опроса.

Что значит «достаточное» количество человек для выборки.

К примеру, если проводить исследование на выборке в 50–100 человек, то погрешность в репрезентативности полученной информации будет выше, чем при опросе 800–1000 человек.

Но увеличивать до бесконечности число опрашиваемых нет смысла. После определенного количества респондентов ошибка выборки остановится на одном уровне.

Ошибка выборки — разность между характеристиками выборочной и генеральной совокупности. Это отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

Где-то после 400 респондентов ошибка выборки не меняется. Поэтому обычно в опросах выборочная совокупность составляет 300–400 человек. При таком значении ты можешь уверенно переносить результаты исследования на всю аудиторию при соблюдении качественной репрезентации и корректно составленной анкеты.

Если генеральная совокупность небольшая, то и выборочная совокупность будет меньше стандартных 300–400 респондентов.

Если хочешь разобраться с формулой расчета выборки подробнее про нее можно узнать здесь.

Также ты можешь провести сплошной опрос. При сплошном опросе ты опрашиваешь всю генеральную совокупность.

Например, если есть интересный и немногочисленный сегмент пользователей (30–100 человек), ты можешь опросить их всех. Или это стартап и уже есть первые пользователи. В таком случае тоже можно провести опрос по всей генеральной совокупности.

На практике требованиями количественной репрезентации иногда пренебрегают в силу нехватки ресурсов на обзвон (если это телефонный опрос) или времени на сбор ответов. Или если опрос проводят для сбора гипотез, а не для принятия конечного решения.

Здесь важно понимать, какое решение должно быть принято на основе исследования. Если это важный продуктовый или бизнес-вопрос, то лучше потратить время и деньги на проверку гипотезы с репрезентативной выборкой, чтобы не получить неверные выводы. А если, это, к примеру, опрос для сбора отклика по новой фиче, то можно остановиться на 30–60 респондентах. Основные выводы ты сделаешь, а пользователи по мере работы в сервисе расскажут о том, что ты мог пропустить.

Методы отбора

В количественном исследовании по сравнению с качественным не важно кто перед тобой, потому что все выводы строятся по совокупности ответов респондентов и материал собирается в обезличенном виде. Поэтому в идеале в выборку респонденты должны попадать случайным образом, чтобы сделать результаты максимально свободными от искажений.

Чтобы этого достичь можно использовать один из методов формирования выборки.

Случайные выборки

Они предполагают, что в выборке каждый элемент генеральной совокупности имеет заранее заданную вероятность быть отобранным в исследование.

Простая случайная выборка. Сначала нужно присвоить каждому потенциальному респонденту идентификационный номер. Дальше с помощью генератора случайных чисел определить номера, которые будут включены в выборку для опроса.

Механическая выборка. Как и в простой выборке пользователям присваивается порядковый номер. Только отбор происходит не с помощью генератора случайных чисел, а с шагом равным n. Например, каждый сотый.

Стратифицированная выборка. Для такой выборки нужно поделить генеральную совокупность на сегменты или страты. После чего респонденты внутри каждой группы отбираются случайным образом. Из каждого сегмента выделяют пользователей пропорционально их доле в генеральной совокупности.

Кластерный отбор или гнездовая выборка. Группа потенциальных респондентов отбирается случайным образом из всей генеральной совокупности. Далее внутри этой группы опрашиваются все пользователи. Например, можно опросить всех пользователей, которые зарегистрировались в сервисе в прошлом квартале.

При таком отборе риск искажений выше и важно учитывать внешние и внутренние факторы. Может быть в прошлом квартале в жизни пользователей произошло что-то важное, что повлияло на их желание воспользоваться сервисом. Тогда эта группа будет сильно отличаться от генеральной совокупности.

Неслучайные выборки

Обычно такие методы отбора применяют, если нет возможности или ресурсов для формирования случайной выборки. Например, у тебя мало времени на опрос или нет данных о генеральной совокупности или респонденты труднодоступны.

Квотная выборка. Такой метод можно применять, если у вас есть знания о составе генеральной совокупности. Например, вы знаете, как ваши пользователи распределяются в разрезе по должности, отрасли компании, возрасту и так далее. Тогда можно пропорционально этим долям сформировать выборку: в каждом разрезе выбрать такое число респондентов, которое будет отображать статистику по всей аудитории.

Стихийная выборка. Это метод без особых правил. В опрос попадают все, кто захочет пройти опрос. Такая выборка типична для онлайн-опросов, размещенных в свободном доступе.

«Снежный ком». Тоже достаточно популярная и простая методика. Каждого респондента просят порекомендовать нового среди его друзей, коллег и знакомых, которые подходили бы под параметры исследования. Такая выборка часто применяется когда самостоятельно найти интересующих респондентов затруднительно. Например, пользователи, занимающие высокую должность или с высоким доходом.

«Типичный представитель». Из генеральной совокупности отбираются респонденты с типичными признаками целевой аудитории. Только определить, что взять за такой признак, обычно сложно.

Отдельно стоит сказать про многоступенчатые выборки. На практике чаще всего (иногда интуитивно) исследователи используют как раз многоступенчатый метод. Такой отбор предполагает наличие двух или более этапов формирования выборки. Проще говоря, это микс нескольких методов отбора.

Например, ты собрал статистику по своей аудитории и знаешь, что большинство пользователей находятся в Москве. Это будет первая ступень отбора по «типичному представителю». Далее среди пользователей-москвичей ты приглашаешь на опрос каждого сотого (механическая выборка).

Проводя количественное исследование, не забывай о репрезентативности и продумывай подходящий метод отбора респондентов. Хорошая подготовка — половина успеха.

Источник

Репрезентативность информации

Репрезентативность информации это количественная и качественная характеристика объема сведений, достаточного для всестороннего и полного раскрытия (понимания, объяснения) наиболее существенных черт, свойств, связей изучаемого процесса, явления, объекта (источника).

Репрезентативность информации обеспечивает оптимальный объем и качество источников, обладающих не только прямой, целенаправленно зафиксированной информацией, но и косвенной (потенциальной), спонтанно появившейся без воли и сознания автора источника, а также и утаенной, если ее удалось выявить в результате текстологического исследования.

Следовательно, историческое познание опирается на такое оптимальное (репрезентативное) количество источников, извлечение информации из которых, позволяет:

1) решить поставленные задачи исследования;

2) определить научно-познавательный потенциал источников, т.е. возможность (или степень) реализации ими их научно-познавательной (гносеологической) функции.

Рассматривая вопрос о междисциплинарном статусе источниковедения, необходимо определить специфические задачи это науки.

В первой же лекции курса было установлено, что термин «источниковедение» полисемантичен по своему содержанию. Используя это термин в узком смысле слова, источниковедение понимается как одна из подготовительных стадий исторического исследования, следующая за постановочно-историографической стадией, позволяющей определить аспекты, требующие своего научного решения. Однако в данном курсе, посвященном теоретическим проблемам источниковедения, оно понимается как особая отрасль исторической науки, как наука об исторических источниках.

Как и другие науки, источниковедение имеет свой объект, предмет и задачи. Первые два аспекта разъяснены в предшествующем изложении, а о задачах говорилось в связи с рассмотрением предмета истории и источниковедения, а также разницы в методологии и цели использования источников историками и источниковедами. Между тем вопрос о задачах источниковедения требует более пристального внимания. Остановимся на нем.

Рекомендуемые файлы

(Отечественными учеными в 1970-х гг. была на практике доказана неправомерность и неэффективность появившейся тенденции разделения источниковедения на теоретическое и практическое, предлагавшаяся некоторыми учеными.)

Теоретические задачи источниковедения, изученные на базе письменных источников, включают следующие параметры:

1) разработка понятийно-терминологического аппарата, создание дефиниций по важнейшим теоретическим проблемам источниковедения (природа и сущность исторического источника; тип и вид источников; наименование процедуры определения авторской принадлежности; критерий и норма датировки и т. п.;

2) разработка теоретических аспектов методики работы с историческими источниками от их выявления, сбора и хранения до извлечения и изучения информации, публикации и других способов внедрения в исследовательскую практику;

3) изучение структуры и свойств всех уровней, видов и пластов информации исторических источников;

4) выяснение принципов и критериев систематизации и классификации исторических источников, определение закономерности возникновения и исчезновения отдельных типов и видов исторических источников, изучение эволюции и трансформации их видов и разновидностей.

Прикладные задачи источниковедения связаны, в основном, с практической деятельностью тех, кто занимается хранением (архивисты, музейные работники, библиотекари) и публикацией (археографы) источников; с извлечением, изучением и оценкой информации ее носителей в любой форме исследователями (историками и искусствоведами), политиками, журналистами, делопроизводителями, криминалистами и др.

Подведем итоги. Рассматривая вопрос о междисциплинарном статусе источниковедения, в том числе о его соотношении с исторической наукой, мы выяснили, что оно обладает рядом черт и отличающих его от истории, и сближающих его с нею.

Различие определялось тремя позициями: объектом, предметом и методологическим подходом к источникам. Объект и предмет истории шире, чем у источниковедения; цели, задачи и методы использования источников совершенно не сходны.

Обеспечение репрезентативности источников и их информации составляет принципиальное требование и в истории, и в источниковедении. Оно позволяет наиболее полно выявить все основные свойства изучаемого объекта (процесса, явления, источника).

Историческое познание неотделимо от источников, оно опирается на них, извлекая из них необходимую для решения поставленных исследовательских целей информацию.

Одна из важных задач источниковедов – выявление и реконструкция информации источников, ее обработка и преобразование для оптимизации работы историков, для их ориентирования в корпусе источников, для выработки рекомендаций о перспективах использования тех или иных источников, обладающих наиболее важной и полной информацией, позволяющей эффективно и результативно изучать прошлое во всем его многообразии.

В целом, источниковедение потому и называется историческим, что оно теснейшим образом связано с исторической наукой, во многом обеспечивая выполнение ею ее социальных и гносеологических (познавательных, воспитательных и прогностических) функций.

Источниковедение входит в историческую науку, так как оно:

1) помогает ввести в научный оборот новые источники, т.е. расширяет источниковую основу исторических исследований;

2) разрабатывает методы и технику изучения источников;

3) предлагает историкам пути наиболее эффективного и рационального использования источников в исторических исследованиях.

Все это определяет вклад источниковедения в историческую науку, которая не может развиваться без учета результатов источниковедческих исследований. Соотношение истории и источниковедения является одним из свидетельств дифференциации и интеграции наук, характерных для современного уровня развития всех отраслей научных знаний.

Наконец, следует понимать, что, изучая источники как результат человеческой деятельности, источниковедение является одной из наук о человеке, а также вносит свой вклад в развитие других наук и сфер практической деятельности.

Источник

Репрезентативность

Также репрезентативность можно определить как свойство выборочной совокупности представлять параметры генеральной совокупности, значимые с точки зрения задач исследования.

Связанные понятия

Упоминания в литературе

Связанные понятия (продолжение)

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Качественный метод исследования – это метод сбора, обработки и анализа информации об индивидах. Объектом интереса качественных исследований являются индивиды как исполнители социальных ролей. Предметом исследования качественных исследований является «характер исполнения роли (вариации социального выбора)».

В когнитивной науке под когнити́вными искаже́ниями понимаются систематические ошибки в мышлении или шаблонные отклонения, которые возникают на основе дисфункциональных убеждений, внедрённых в когнитивные схемы, и легко обнаруживаются при анализе автоматических мыслей. Существование большинства когнитивных искажений было описано учёными, а многие были доказаны в психологических экспериментах.

Групповáя поляризáция — психологический феномен расхождения по разным полюсам мнений участников дискуссии во время принятия группового решения. Величина разброса конечных вариантов напрямую зависит от первоначальных позиций участников. То есть, чем дальше от середины находились их мнения в начале дискуссии, тем сильней будет проявляться феномен. Важно разделять «поляризацию» и «экстремизацию». Поляризация — явление, при котором решение члена группы смещается к ранее выбранному им полюсу; при экстремизации.

Источник

Репрезентативность выборочных данных

Что такое репрезентативность информации. Смотреть фото Что такое репрезентативность информации. Смотреть картинку Что такое репрезентативность информации. Картинка про Что такое репрезентативность информации. Фото Что такое репрезентативность информации

Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. В статье рассказываем подробнее об этом важном свойстве.

Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Оно отражает способность данных представлять зависимости и закономерности исследуемой предметной области, которые должна обнаружить и научиться воспроизводить построенная модель. Иными словами, репрезентативность показывает, содержат ли анализируемые данные достаточно информации для построения качественной модели, а так же, может ли эта информация быть использована алгоритмом построения модели.

Репрезентативность генеральной совокупности отражает способность совокупности описывать существенные свойства, зависимости и закономерности объектов, процессов и явлений предметной области. Она достигается за счёт правильной организации сбора и консолидации первичных данных.

Репрезентативность выборки описывает способность выборочных данных отражать структурные свойства совокупности, из которой они были извлечены. Т.е. даёт ответ на вопрос: можно ли в исследовании заменить совокупность на выборку без значимого ухудшения результатов анализа. Репрезентативность выборки достигается с помощью правильного выбора метода сэмплинга.

Таким образом, репрезентативность выборки касается только воспроизведения характеристик совокупности. Если сама исходная совокупность плохо представляет предметную область, то, даже если полученная из неё выборка будет репрезентативной, построить на её основе корректную с точки зрения предметной области модель будут невозможно.

Например, пусть компания собирается вывести на рынок новый продукт. При этом она хочет провести маркетинговые исследования в виде опроса клиентов о желаемых характеристиках и параметрах продукта. Число клиентов компании насчитывает сотни тысяч человек (генеральная совокупность), поэтому опросить их всех не представляется возможным физически, не является целесообразным экономически.

Поэтому компания формирует выборку клиентов для проведения опроса. Если мнение клиентов из выборки отражает мнение большинства клиентов и может быть использовано для принятия решений о параметрах и характеристиках нового продукта, то такая выборка будет репрезентативной.

Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. Поэтому в процессе анализа необходимо убедиться, что сформированная выборка репрезентативна.

Таким образом, репрезентативная выборка — это такая выборка, в которой представлены все подгруппы, важные для исследования. Помимо этого, характер распределения рассматриваемых параметров в выборке должен быть таким же, как в генеральной совокупности.

Особенно важным является обеспечение репрезентативности в машинном обучении, для построения моделей классификации и регрессии используется несколько выборок: обучающая, тестовая и валидационная, которые тем или иным способом отбираются из исходного набора данных. И все эти выборки должны быть репрезентативными.

Обеспечение репрезентативности

В основе построения репрезентативной выборки лежит правильный выбор используемого алгоритма сэмплинга. При этом размер выборки, хотя и является важным, сам по себе не гарантирует ее репрезентативности. Например, интернет-опрос может показать, что 100% людей пользуется интернетом, хотя это не соответствует действительности (т.е. репрезентативность нарушена).

Выделяют качественную (структурную) и количественную репрезентативность.

Что такое репрезентативность информации. Смотреть фото Что такое репрезентативность информации. Смотреть картинку Что такое репрезентативность информации. Картинка про Что такое репрезентативность информации. Фото Что такое репрезентативность информации

Рисунок 1. Количественная и качественная репрезентативность

Качественная репрезентативность

Качественная репрезентативность показывает, что все группы, присутствующие в совокупности, будут представлены и в выборке. Для этого каждый элемент совокупности должен иметь равную вероятность, быть выбранным, а сама выборка должна производиться из однородных групп.

Наиболее оптимальным способом формирования репрезентативной выборки является простой случайный сэмплинг, поскольку в этом случае у любого представителя генеральной совокупности будет одинаковая вероятность попасть в выборку.

Например, при формировании выборки клиентов для опроса, в нее попадут люди из различных социальных групп пропорционально их долям в генеральной совокупности. В результате, выборка будет представлять собой уменьшенную копию генеральной совокупности.

Случайность отбора респондентов в выборку может обеспечивается различными методами. Например, для опроса клиентов берутся номера клиентских карт, которые случайным образом отбираются компьютерной программой с использованием генератора случайных чисел.

Однако, на практике применить простой случайный сэмплинг не всегда представляется возможным. Это связано с тем, что генеральная совокупность может быть неоднородной и будет содержать группы объектов.

Например, если опрос будет проводиться по телефону, то большинство откликов будет получено от пенсионеров, как людей менее занятых и более склонных идти на контакт. Очевидно, что если опрос проводится о продукте, ориентированном на молодёжь, то ценность мнения пенсионеров вряд ли будет высокой.

Чтобы решить эту проблему, можно использовать случайный стратифицированный сэмплинг, когда исходная совокупность сначала разделяется на слои (страты) по некоторому признаку. Например, клиенты могут быть стратифицированы по возрасту. Тогда страты могут быть сформированы пропорционально доле объектов в группах, что позволит уменьшить или увеличить долю той или иной группы, сохранив репрезентативность.

Другой вариант — использовать кластерный (групповой) сэмплинг, когда клиенты предварительно разбиваются на качественно однородные группы — кластеры, и отбор производится из каждого кластера независимо. При этом вероятность отбора может быть одинаковой для всех кластеров, или различной. Можно некоторые кластеры вообще исключить из отбора. В нашем примере клиенты могут быть разбиты на кластеры по социальному статусу — студенты, работающие, пенсионеры, военнослужащие и т.д. Таким образом, долю, пенсионеров в выборке, можно уменьшить или совсем исключить.

Количественная репрезентативность

Количественная репрезентативность показывает, является ли достаточным число элементов выборки для представления характеристик генеральной совокупности с заданной погрешностью. Например, при неизвестной величине генеральной совокупности, когда результат отражается в виде показателя относительной доли, число элементов выборки, обеспечивающее количественную репрезентативность, может быть вычислено по формуле:

где t — доверительный коэффициент, показывающий, какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки, p — доля единиц наблюдения, обладающих изучаемым признаком, q=1−p — доля единиц наблюдения, не обладающих изучаемым признаков, Δ — допустимая ошибка выборки.

n=\frac<2^<2>\cdot 0,25\cdot 0,75><0,05^<2>>=300 заёмщиков.

Если же показатель — не относительная средняя величина просроченной задолженности по всем клиентам, то число наблюдений будет:

Если используется выборка без возврата и размер генеральной совокупности известен, то для определения необходимого размера случайной выборки при использования относительных величин (долей) применяется формула:

n=\frac\cdot p\cdot q\cdot N><\Delta ^<2>\cdot N+t^<2>\cdot p\cdot q>

где N — число наблюдений генеральной совокупности. Для средних значений исследуемой величины формула примет вид:

n=\frac<2^<2>\cdot 0,25\cdot 0,75\cdot 500><0,05^<2>\cdot 500+2^<2>\cdot 0,25\cdot 0,75>\approx 188 клиентов.

Таким образом, необходимый объем выборки при безвозвратном отборе меньше, чем при возвратном (соответственнo, 188 и 300).

В целом, число наблюдений, требуемое для получения репрезентативной выборки, изменяется обратно пропорционально квадрату допустимой ошибки.

Методы оценки репрезентативности

Формально, выборку называют репрезентативной, когда результат оценки определенного параметра по данной выборке совпадает с результатом, оцененным по генеральной совокупности с учетом допустимой погрешности (ошибки репрезентативности). Если выборочная оценка отличается от оценки по генеральной совокупности более, чем на заданный уровень погрешности, то такая выборка считается нерепрезентативной.

Репрезентативность оценивается по отдельным параметрам выборки и совокупности. При этом выборка может оказаться репрезентативной по одним параметрам и нерепрезентативной по другим. Поэтому говорить о репрезентативности как о дихотомическом свойстве выборки (репрезентативна или нерепрезентативна) было бы не верно: выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие — менее. Поэтому правильнее говорить о мере репрезентативности определённой выборки по конкретным параметрам.

Основным моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной. Одна и та же выборка может быть достаточно репрезентативной для одной задачи и недостаточно для другой. Кроме этого, нужно проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. Например, в маркетинговых исследованиях для анализа клиентов важны пол, возрасту, образование и пр.

Следует отметить, что далеко не все задачи бизнес-аналитики требуют строгого статистического подтверждения репрезентативности выборок. Как правило, это задачи точного прогнозирования. Что касается обычных задач, связанных, например, с определением предпочтений действующих и потенциальных клиентов, то они решаются охватом типичной клиентуры, которую можно найти непосредственно в торговых центрах.

Статистические методы

Данные, полученные в результате выборочных обследований, являются реализациями случайных величин (возраст, стаж работы, доход и т.д.). Обычно, на практике считают, что выборка является репрезентативной, если её статистические параметры (среднее значение, дисперсия, среднеквадратичное отклонение и т.д.) отличаются от параметров совокупности не более, чем на 5%.

Однако, данный подход применим только при условии, что вся генеральная совокупность известна и для неё можно вычислить статистические характеристики. Но на практике такое встречается редко, поскольку часть потенциально интересных для исследования объектов оказывается недоступной для наблюдения.

В этом случае прибегают к формированию двух независимых выборок, вычисляют и сравнивают их характеристики, и если они совпадают (не различаются значимо), то выборки считаются репрезентативными. В теоретическом плане такой подход является достаточно привлекательным, однако, на практике сложно реализуем. Во-первых, формирование нескольких выборок ведёт к дополнительным затратам, а во-вторых, если параметры выборок значимо различаются, то невозможно сказать, какая из них репрезентативна.

Нестатистические методы

Статистические методы оценки репрезентативности выборочных данных, хотя и являются строго обоснованными, но довольно сложны в использовании (особенно для пользователей, не имеющих достаточной математической подготовки). Кроме этого они могут иметь ограничения (например, независимость выборок), удовлетворить которым достаточно сложно.

Статистические подходы к оценке репрезентативности выборок имеет смысл использовать, если для анализа данных используются статистические методы. Методы машинного обучения, которые является эвристическими и в большинстве случаев не обеспечивают точного и единственного решения, вообще говоря, не нуждаются в точной оценке репрезентативности обучающих выборок. Поэтому в них используются свои техники для определения того, насколько обучающая или тестовая выборка хорошо представляют исходную совокупность.

Ещё одной особенностью выборок, используемых в машинном обучении, является то, что объём исходной совокупности, из которой формируются обучающее, тестовое, а при необходимости, и валидационное множество, известен, поскольку данные содержатся в консолидированных таблицах источника данных.

Затем вычислим величину:

где D_<_> — общее расстояние по всей совокупности, N — число наблюдений совокупности.

Тогда индекс ближайшего соседа будет:

Если значение данного показателя близко к 1, то точки выборки имеют равномерное пространственное распределение. Если меньше 1, то пространственное распределение точек неоднородно. Если NNI больше 1, то имеет место значительная дисперсия значений внутри выборки.

Очевидно, что наилучшим вариантом с точки зрения репрезентативности будет первый случай, когда пространственное распределение точек данных в совокупности и выборке примерно одинаковое. Второй случай показывает, что внутри выборки могут присутствовать некоторое локальные особенности, нехарактерные для всей совокупности.

В литературе можно найти больше количество разнообразных алгоритмов и методов оценки репрезентативности выборок для машинного обучения, разработанных для различных предметных областей исследования и типов задач анализа. Большинство их них являются эвристическими и не гарантируют получения наилучшего результата. Поэтому самым надёжным критерием репрезентативности выборки, на основе которой строилась определённая обучаемая модель, является точность и обобщающая способность самой модели.

Ремонт выборки

Возникает вопрос: а что делать в ситуации, когда аналитику доступна только выборка «как есть», а её репрезентативность неудовлетворительная? При этом доступ к генеральной совокупности для формирования более репрезентативной выборки у него отсутствует (например, из-за проблем с сетью, невозможности повторных исследований из-за высоких затрат и т.д.). В этом случае улучшить ситуацию может специальная процедура, которая называется «ремонт выборки».

Все действия аналитика, связанные с репрезентативностью, можно разделить на два этапа: контроль и ремонт.

Контроль и ремонт выборки рассматриваются как обязательные этапы любого выборочного исследования. Хотя, некоторые авторы не разделяют эти два этапа, а включают ремонт в общую процедуру контроля выборки. Ряд вопросов, связанных с контролем выборки был рассмотрен выше.

Основной целью ремонта является повышение качества выборки в смысле отражения ею зависимостей и закономерностей исследуемых процессов и явлений, которые требуется обнаружить в процессе анализа. При этом не следует путать ремонт выборки с повышением качества данных вообще.

Ремонт выборки, обычно, включает следующие задачи:

Следует отметить, что единого, строго обоснованного подхода к ремонту выборок, вообще говоря, не существует, хотя в литературе можно встретить некоторые общие рекомендации. В большинстве практических случаев аналитику приходится самостоятельно выбирать, какие преобразования следует применить к выборке для повышения её репрезентативности.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *