ящик с усами что показывает

Ящик с усами

220px Michelsonmorley

magnify clip

220px

magnify clip

Ящик с усами (англ. box-and-whiskers diagram or plot, box plot ) — график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей.

Такой вид диаграммы в удобной форме показывает медиану, нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распределение с другим, их можно рисовать горизонтально, либо вертикально. Расстояния между различными частями ящика позволяют определить степень распространения (дисперсии) и асимметрии в данных, и выявить выбросы.

Содержание

Компактность представления информации

График ящик с усами или ящичковая диаграмма был разработан Джоном Тьюки в 1970-х годах. По сути, ящик с усами — это быстрый способ изучения одного или нескольких наборов данных в графическом виде. Этот график может показаться более примитивным, чем, например, оценка гистограммы, но он имеет некоторые преимущества. Он занимает меньше места, и поэтому особенно полезен для сравнения распределений между несколькими группами или наборами данных. Кроме того, ящик с усами в своей первоначальной форме прост для построения.

Если на третьем графике, где показаны плотности распределения, нельзя толком ничего рассмотреть и сравнить, то на четвертом графике, отображающем ящики с усами, легко можно оценить медианы, квартили, степень распространения (дисперсии) и асимметрии в данных, и выявить выбросы. Асимметрию данных можно увидеть не только по медиане, смещенной к какому-либо концу ящика, но и по разной длине усов, выходящих из ящика.

График ящик с усами очень прост для понимания и именно поэтому часто используется в различных публикациях для отображения данных.

Построение

Все данные,выходящие за границы усов являются выбросами и отображаются на графике в виде точек, маленьких кружков или звездочек. Иногда на графике также отмечают среднее арифметическое.

В связи с тем, что не существует единого общего согласия относительно того, что считать основным графиком ящика с усами, при виде такого графика необходимо искать информацию в сопроводительном тексте относительно того, по каким параметрам ящик с усами строился.

Модификации ящика с усами

48px No image template.svg

Следующая модификация получила название Histplot (График 6)

48px No image template.svg

Теперь на графике отображаются плотности распределения по 3 точкам: медиане, первому и третьему квартилю. Соответственно вместо прямоугольника «ящик» теперь представляет собой 2 равнобедренные трапеции, имеющие смежное основание.

Дальнейшее изменение получило название Vaseplot от сравнения ящика с вазой (График 7)

48px No image template.svg

На данном графике происходит отображение всех плотностей вероятностей от первого до третьего квартиля. Серые области представляют собой доверительный интервал медианы.

Ссылки

Полезное

Смотреть что такое «Ящик с усами» в других словарях:

ящик-с-усами — Способ визуализации множества данных, измеренных в интервальной шкале. Часто применяется в разведочном анализе данных. Выглядит как прямоугольник, на котором представлены максимальное и минимальное значения выборки, ее нижний и верхний квартили,… … Словарь социологической статистики

Статистика — Гистограмма (метод графических изображений) У этого термина существуют и другие значения, с … Википедия

Среднее значение — Среднее значение числовая характеристика множества чисел или функций; некоторое число, заключённое между наименьшим и наибольшим из их значений. Содержание 1 Основные сведения 2 Иерархи … Википедия

Среднее степенное — У этого термина существуют и другие значения, см. среднее значение. Среднее степени d (или просто среднее степенное) набора положительных вещественных чисел определяется как При этом по непрерывности доопределяются следующие величины … Википедия

Среднее геометрическое — Средним геометрическим нескольких положительных вещественных чисел называется такое число, которым можно заменить каждое из этих чисел так, чтобы их произведение не изменилось. Более формально: Среднее геометрическое двух чисел также называется… … Википедия

Мода (статистика) — У этого термина существуют и другие значения, см. Мода (значения). Мода значение во множестве наблюдений, которое встречается наиболее часто. Случайная величина может не иметь моды. Иногда в совокупности встречается более чем одна мода (например … Википедия

Медиана (статистика) — В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете … Википедия

Моменты случайной величины — Момент случайной величины числовая характеристика распределения данной случайной величины. Содержание 1 Определения 2 Замечания … Википедия

Генеральная совокупность — Генеральная совокупность, генеральная выборка (от лат. generis общий, родовой)(в англ. терминологии population) совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.… … Википедия

Источник

Диаграмма размаха («ящик с усами»)

diagramma razmaha

Описание

Диаграммы размаха («ящик с усами») (Box and Whisker Plot или Box Plot) – это удобный способ визуального представления групп числовых данных через квартили.

Прямые линии, исходящие из ящика, называются «усами» и используются для обозначения степени разброса (дисперсии) за пределами верхнего и нижнего квартилей. Выбросы иногда отображаются в виде отдельных точек, находящихся на одной линии с усами. Диаграммы размаха могут располагаться как горизонтально, так и вертикально.

Диаграммы размаха, как правило, используются в описательной статистике и позволяют быстро исследовать один или более наборов данных в графическом виде. Несмотря на то, что в сравнении с гистограммой или графиком плотности, этот график может показаться примитивным, его преимущество – в экономии пространства, что особенно удобно при сравнении распределений между большим количеством групп или наборов данных.

Виды наблюдений, которые можно сделать на основе ящика с усами:

Каковы ключевые значения, например: средний показатель, медиана 25го перцентиля и так далее.

Существуют ли выбросы и каковы их значения.

Симметричны ли данные.

Насколько плотно сгруппированы данные.

Смещены ли данные и, если да, то в каком направлении.

Два из наиболее распространенных варианта ящика с усами – диаграмма размаха с переменной шириной и диаграмма размаха с метками.

Источник

Диаграмма «ящик с усами» (boxplot) в Excel 2016

Excel 2016, как известно, обогатился новыми типами диаграмм. Одна такая, которая диаграмма Парето, уже была показана. В этот раз рассмотрим другую, чисто статистическую. Называется «ящик с усами» или «коробчатая диаграмма» (box-and-whiskers plot или boxplot).

Раньше я такие видел только в специализированных ПО, типа STATISTICA, и для того, чтобы нарисовать подобную диаграмму в Excel, нужно было изрядно потрудиться. Теперь она есть в стандартном наборе Excel.

lazy placeholder

Зачем нужна такая диаграмма? Допустим, есть выборка для анализа. А еще лучше несколько выборок, которые нужно сравнить. Для этого рассчитывают различные показатели. Однако к любому расчету всегда хочется добавить наглядности, чтобы мозг перешел в режим образного представления, а не довольствовался сухими цифрами и формулами. Поэтому основные характеристики ловко изображают на рисунке. Отличным вариантом будет как раз диаграмма «ящик с усами».

lazy placeholder

На рисунке показан формат по умолчанию. Как видно, сравниваются две выборки путем изображения двух «ящиков с усами».

Что здесь что обозначает?

Крестик посередине – это среднее арифметическое по выборке.

Линия чуть выше или ниже крестика – медиана.

Нижняя и верхняя грань прямоугольника (типа ящика) соответствует первому и третьему квартилю (значениям, отделяющим ¼ и ¾ выборки). Расстояние между 1-м и 3-м квартилем – это межквартильный размах (или расстояние).

Горизонтальные черточки на конце «усов» – максимальное и минимальное значение (без учета выбросов, см. ниже).

Отдельные точки – это выбросы, которые показываются по умолчанию. Если значение выходит за пределы 1,5 межквартильных размаха от ближайшего квартиля, то оно считается аномальным. Их можно скрыть (см. ниже настройки).

Во всей красе «ящик с усами» проявляется при сравнении выборок, в которых данные делятся на категории. Допустим, провели некоторый эксперимент среди мужчин и женщин. Есть данные до и после эксперимента по обоим полам. Для анализа потребуется вычислить различные показатели. А если к этому добавить диаграмму «ящик с усами», то результат будет весьма наглядным.

lazy placeholder

Отлично видно, что после проведения эксперимента данные по мужчинам в целом уменьшились, а данные среди женщин наоборот, увеличились. Это не значит, что выборки больше не нужно анализировать (сравнивать, проверять гипотезы и т.д.). Но наглядность сильно улучшает понимание. Перейдем к настройкам.

Настройки диаграммы «ящик с усами»

Общий вид диаграммы настраивается стандартно. Можно менять цвет, добавлять подписи и т.д. Для этого есть две контекстные вкладки на ленте (Конструктор и Формат). Но есть настройки, предназначенные специально для этой диаграммы.

Выбираем какой-либо ряд и жмем Ctrl+1. Либо два раза кликаем по какому-нибудь «ящику». Можно через правую кнопку Формат ряда данных…. Справа вылазит панель настроек.

lazy placeholder

Рассмотрим по порядку.

Боковой зазор – регулирует ширину ящиков и расстояние между ними.

Показывать внутренние точки. Если поставить галочку, то на оси, где расположены «усы», точками будут показаны все значения. Так хорошо видно распределение внутри групп.

lazy placeholder

Показывать точки выбросов – отражать экстремальные значения.

lazy placeholder

Выбросы – это точки, выходящие за пределы 1,5 межквартильных размаха.

Показать средние метки – среднее арифметическое (крестики). Стоят по умолчанию, но можно скрыть.

Показать среднюю линию – только для различных категорий. Показывает изменения по категориям.

lazy placeholder

Если добавить линии, то изменения после эксперимента станут видны еще лучше. В справке написано, что соединяются медианы, но на графике почему-то соединяются средние. Чудеса.

Своевременное использование диаграммы «ящик-усы» может дать весьма ценную и наглядную информацию. Аналитику, который использует специализированные программы или трудоемкие настройки Excel, будет очень приятно иметь такую диаграмму под рукой.

Как показано в ролике ниже, все делается очень быстро и просто.

Источник

Как сравнивать данные с помощью усов, ящиков и скрипок?

Для простоты восприятия возьмем данные более простые, универсальные и нейтральные — высоту в холке и вес нескольких пород собак по сведениям Американского клуба собаководства (American Kennel Club). Данные по размерам пород в среднем можно найти здесь. Прибавим к ним функцию random.uniform из Python-библиотеки numpy, переведем дюймы в сантиметры, а фунты в килограммы, и вот мы получаем реалистично выглядящий набор данных по размерам собак нескольких пород, с которым можно работать. В нашем примере это чихуахуа, бигли, ротвейлеры и английские сеттеры.

Одну из аналитик, которую можно применить для сравнения этих 4 числовых рядов – посмотреть на их медиану. Она разбивает ряд данных на две части: половина значений меньше медианы и остальная половина – больше. Медианные значения находим, группируя с помощью библиотеки pandas по столбцу «Порода» и применяя к сгруппированным данным функцию median. Аналогично можно было бы посмотреть и другие статистические показатели: среднее значение (mean) и моду (mode).

Видим, что половина встреченных нами чихуахуа имеет высоту в холке не больше 18 см, бигль значительно выше – в районе 41 см, и следующие по размерам – ротвейлер и английский сеттер, которые отличаются по росту незначительно: 58 и 63 см.

Но только одной медианы недостаточно для сравнительного анализа данных. Можно получить больше информации, если рассмотреть такой инструмент как диаграмма размаха (также известная как «ящик с усами», box-and-whiskers plot), построенную с помощью Python-библиотеки для построения графиков seaborn. Линия внутри ящика – это уже знакомая нам медиана. Ее уровень на графике справа (см. Рисунок 3) совпадает с высотой соответствующего столбца слева.

Но при этом диаграмма размаха содержит дополнительную информацию о том, как данные распределены внутри ряда: нижняя граница прямоугольника (ящика) – это первый квартиль (величина, превосходящая 25% значений ряда), а верхняя граница – третий квартиль (величина, превосходящая 75% значений).

А те самые «усы» — отрезки, отходящие вверх и вниз от середины прямоугольника – строятся на основе интерквартильного размаха и обозначают верхнюю и нижнюю границу значимой части наших данных, исключая выбросы. Здесь выбросы отсутствуют (дистрофиков и собак-гигантов нам в рассмотрение не попадалось), при наличии они отобразились бы метками за пределами «усов».

Скрипичный график (violinplot) из той же библиотеки seaborn дает нам еще больше информации о структуре рассматриваемых данных. Ниже на Рисунке 4 представлены все три графика, где породы идут каждый раз в одинаковом порядке, а цвет для соответствующего ряда сохраняется.

Например, зеленым показаны данные о ротвейлерах.

Сходства и различия диаграммы размаха (ящика с усами) и скрипичного графика показаны на следующем Рисунке 5. Сначала сходства: (1) оба графика в том или ином виде отражают 0.25-квантиль, 0.5-квантиль (медиану) и 0.75-квантиль; (2) и там, и там отражаются крайние значения, которые близки к величине полутора межквартильных интервалов (IQR), отложенных от нижнего и верхнего края коробки – те самые «усы» для диаграммы размаха, за пределами которых находятся «выбросы».

Отличие же состоит в том, что скрипичный график содержит также информацию о том, как данные распределены внутри, т.к. границы построенной «скрипки» — это повернутая на 90 градусов плотность распределения. И в этом случае при анализе графика у нас гораздо больше информации: в дополнение к квантилям и значениям, описывающим 4 интерквартильных расстояния (1.5 + 1 + 1.5) на скрипичном графике можно увидеть, распределены ли данные равномерно или есть несколько центров, где значения встречаются более часто.

Более ярко эту мысль можно увидеть на следующем графике (Рисунок 6), где данные по двум группам ротвейлеров отличаются, но подобраны таким образом, что медианы совпадают (крайний слева график) и даже больше – диаграммы размаха (в центре) тоже совпадают! И только скрипичный график (крайний справа) показывает нам, что на самом деле структура данных значительно отличается.

Используя кластеризацию К-средних (cluster.KMeans) из модуля sklearn, мы можем визуально представить сгруппированные данные, построив диаграмму разброса с помощью функции scatterplot модуля seaborn. Здесь цвет отделяет один кластер, созданный ML-алгоритмом, от другого, а форма маркера показывает исходную принадлежность к той или иной группе. Понижать размерность с помощью PCA или какого-либо другого метода здесь было не нужно, т.к. данные изначально 2D.

Код для кластеризации и построения диаграммы разброса:

Таким образом, на примере данных о высоте в холке нескольких пород собак мы познакомились с некоторыми статистическими характеристиками числовых рядов и инструментах их визуализации. Простой инструмент дает понятную метрику, но не дает полной картины. Более сложные инструменты дают более глубокую картину данных, но и воспринимаются также сложнее в силу увеличения количества информации на графике. И здесь важно выбирать инструмент под конкретную задачу, чтобы находить баланс между требующейся полнотой информации и простотой ее восприятия на графике.

AgentDesktop

На проблемы с доступом пользователи жалуются с начала декабря.

Источник

Диаграмма «ящик с усами» в статистике

Содержание:

Диаграмма «ящик с усами»

Построение диаграммы «Ящик с усами» рассмотрим на следующем примере

Задача пример №154

15 работников фирмы при сдаче экзамена по технике безопасности, получили следующие баллы:

13 9 18 15 14 21 7 10 11 20 5 18 37 16 17.

Представьте данную информацию в виде диаграммы «ящик с усами».

Решение:

1. Расположите данные в порядке возрастания, определите медиану и отметьте ее через 112832.

3. Медианы половинок, называемые квартилями (здесь 112834= 10, 112835= 18), разбивают данные на 4 части.

112836

112837

Разница длин левого и правого «уса» зависит от разницы значений данных в соответствующих частях.

Для построении диаграммы «ящик с усами» из заданной совокупности выделяют 5 значений:

Медиану 112838, квартиль 112839, значение которого меньше медианы и является медианой нижней половины, квартиль 112840, значение которого больше медианы и является медианой верхней половины множества данных, наибольшее и наименьшее значения.

112841

Шаги построения диаграммы «ящик с усами»

1. Проводится горизонтальная прямая.

2. В зависимости от диапазона изменения данных проводится деление.

4. От 112839до 112840рисуется ящик.

5. Рисуем «усы» от 112839: до минимального значения и от 112840до максимального значения.

112842

Задача пример №155

Ниже представлены данные возраста участниц женской паралимпийской команды по волейболу

24, 30, 30, 22, 25, 22, 18, 25, 28, 30, 25, 27. Представьте данные в виде диаграммы «ящик с усами».

Решение:

1. Расположим данные и найдем медиану и квартили.

112843

2. Изобразим числовую ось и отметим эти следующие данные.

112844

Эта лекция взята из раздела решения задач по математике, там вы найдёте другие лекци по всем темам математики:

Другие темы которые вам помогут понять математику:

Присылайте задания в любое время дня и ночи в ➔ 396373396374

Официальный сайт Брильёновой Натальи Валерьевны преподавателя кафедры информатики и электроники Екатеринбургского государственного института.

Все авторские права на размещённые материалы сохранены за правообладателями этих материалов. Любое коммерческое и/или иное использование кроме предварительного ознакомления материалов сайта natalibrilenova.ru запрещено. Публикация и распространение размещённых материалов не преследует за собой коммерческой и/или любой другой выгоды.

Источник

Adblock
detector