ящик с усами в статистике что такое

Диаграмма «ящик с усами» в статистике

Содержание:

Диаграмма «ящик с усами»

Построение диаграммы «Ящик с усами» рассмотрим на следующем примере

Задача пример №154

15 работников фирмы при сдаче экзамена по технике безопасности, получили следующие баллы:

13 9 18 15 14 21 7 10 11 20 5 18 37 16 17.

Представьте данную информацию в виде диаграммы «ящик с усами».

Решение:

1. Расположите данные в порядке возрастания, определите медиану и отметьте ее через 112832.

3. Медианы половинок, называемые квартилями (здесь 112834= 10, 112835= 18), разбивают данные на 4 части.

112836

112837

Разница длин левого и правого «уса» зависит от разницы значений данных в соответствующих частях.

Для построении диаграммы «ящик с усами» из заданной совокупности выделяют 5 значений:

Медиану 112838, квартиль 112839, значение которого меньше медианы и является медианой нижней половины, квартиль 112840, значение которого больше медианы и является медианой верхней половины множества данных, наибольшее и наименьшее значения.

112841

Шаги построения диаграммы «ящик с усами»

1. Проводится горизонтальная прямая.

2. В зависимости от диапазона изменения данных проводится деление.

4. От 112839до 112840рисуется ящик.

5. Рисуем «усы» от 112839: до минимального значения и от 112840до максимального значения.

112842

Задача пример №155

Ниже представлены данные возраста участниц женской паралимпийской команды по волейболу

24, 30, 30, 22, 25, 22, 18, 25, 28, 30, 25, 27. Представьте данные в виде диаграммы «ящик с усами».

Решение:

1. Расположим данные и найдем медиану и квартили.

112843

2. Изобразим числовую ось и отметим эти следующие данные.

112844

Эта лекция взята из раздела решения задач по математике, там вы найдёте другие лекци по всем темам математики:

Другие темы которые вам помогут понять математику:

Присылайте задания в любое время дня и ночи в ➔ 396373396374

Официальный сайт Брильёновой Натальи Валерьевны преподавателя кафедры информатики и электроники Екатеринбургского государственного института.

Все авторские права на размещённые материалы сохранены за правообладателями этих материалов. Любое коммерческое и/или иное использование кроме предварительного ознакомления материалов сайта natalibrilenova.ru запрещено. Публикация и распространение размещённых материалов не преследует за собой коммерческой и/или любой другой выгоды.

Источник

Создание блочной диаграммы с ограничителями выбросов

Диаграмма «ящик с усами» показывает распределение данных по квартилям, выделяя их выбросы. В полях могут быть линии, протянутые вертикально под названием «усы». Эти линии указывают на отклонение за пределами верхнего и нижнего квартилей, и любая точка за пределами этих линий (усов) считается выбросом.

Диаграмма «ящик с усами» чаще всего используется в статистическом анализе. Например, с помощью нее можно сравнить результаты медицинских испытаний или экзаменационные баллы учащихся.

96be2fcc a80d 486c 8575 0ccad1fe0ca8

Создание диаграммы «ящик с усами»

Выделите данные (один или несколько рядов).

Значения на изображении ниже являются частью набора данных, на основе которого был создан показанный выше образец диаграммы.

9c3ce7ea 8042 4d8d b808 72d8df22286e

В Excel выберите команды Вставка > Вставить диаграмму статистики > Ящик с усами, как показано на рисунке ниже.

Важно: В Word, Outlook и PowerPoint порядок действий немного другой.

На вкладке Вставка в группе Иллюстрации нажмите кнопку Диаграмма.

В диалоговом окне Вставка диаграммы на вкладке Все диаграммы выберите элемент Ящик с усами.

ee0b1589 88b2 4619 91a1 0a35d20a091a

На вкладках Конструктор и Формат можно настроить внешний вид диаграммы.

fd7db992 63b2 4e28 a877 a2ae13d6b7ef

Если они не отображаются, щелкните в любом месте диаграммы «ящик с усами», чтобы добавить на ленту область Работа с диаграммами.

Параметры диаграммы «ящик с усами»

Щелкните правой кнопкой мыши одно из полей на диаграмме, чтобы выбрать его, а затем в контекстном меню выберите пункт Формат ряда данных.

В области Формат ряда данных, выбрав Параметры ряда, внесите необходимые изменения.

(Руководствуйтесь информацией в таблице под приведенным ниже рисунком.)

2c8828a3 fb5f 4bbd bdc1 9972fbc2b09d

Управление зазором между категориями.

Показывать внутренние точки

Показывать точки выбросов

Показывать маркеры медиан

Отображение маркеров медианы выбранного ряда.

Показывать линию медиан

Отображение линии, соединяющей медианы блоков в выбранном ряде.

Выберите метод вычисления медиан.

Инклюзивная медиана Медиана включается в вычисления, если N (число значений в данных) — нечетное число.

Исключающая медиана Медиана исключается из вычислений, если N (число значений в данных) — нечетное число.

Совет: Дополнительные сведения о диаграммах «ящик с усами», а также их пользе для визуализации статистических данных см. в этой записи о гисторамме, диаграммах Парето и «ящик с усами» блога группы разработчиков Excel. Дополнительные сведения о других новых типах диаграмм приведены в этой записи блога.

Создание диаграммы «ящик с усами»

Выделите данные (один или несколько рядов).

Значения на изображении ниже являются частью набора данных, на основе которого был создан показанный выше образец диаграммы.

9c3ce7ea 8042 4d8d b808 72d8df22286e

На ленте на вкладке «Вставка» щелкните d534ad0a 9643 474b 8795 bfbee600db94(значок статистической диаграммы) и выберите «Ящик с усами».

На вкладке «Конструктор диаграмм» и «Формат» можно настроить внешний вид диаграммы.

Если вкладки «Конструктор диаграмм» и «Формат» не вы видите, щелкните в любом месте диаграммы «ящик с усами», чтобы добавить их на ленту.

Параметры диаграммы «ящик с усами»

Щелкните одно из полей на диаграмме, чтобы выбрать его, а затем на ленте нажмите кнопку «Формат».

Внести нужные изменения можно с помощью инструментов на вкладке «Формат».

Источник

Диаграмма размаха («ящик с усами»)

diagramma razmaha

Описание

Диаграммы размаха («ящик с усами») (Box and Whisker Plot или Box Plot) – это удобный способ визуального представления групп числовых данных через квартили.

Прямые линии, исходящие из ящика, называются «усами» и используются для обозначения степени разброса (дисперсии) за пределами верхнего и нижнего квартилей. Выбросы иногда отображаются в виде отдельных точек, находящихся на одной линии с усами. Диаграммы размаха могут располагаться как горизонтально, так и вертикально.

Диаграммы размаха, как правило, используются в описательной статистике и позволяют быстро исследовать один или более наборов данных в графическом виде. Несмотря на то, что в сравнении с гистограммой или графиком плотности, этот график может показаться примитивным, его преимущество – в экономии пространства, что особенно удобно при сравнении распределений между большим количеством групп или наборов данных.

Виды наблюдений, которые можно сделать на основе ящика с усами:

Каковы ключевые значения, например: средний показатель, медиана 25го перцентиля и так далее.

Существуют ли выбросы и каковы их значения.

Симметричны ли данные.

Насколько плотно сгруппированы данные.

Смещены ли данные и, если да, то в каком направлении.

Два из наиболее распространенных варианта ящика с усами – диаграмма размаха с переменной шириной и диаграмма размаха с метками.

Источник

Как сравнивать данные с помощью усов, ящиков и скрипок?

Для простоты восприятия возьмем данные более простые, универсальные и нейтральные — высоту в холке и вес нескольких пород собак по сведениям Американского клуба собаководства (American Kennel Club). Данные по размерам пород в среднем можно найти здесь. Прибавим к ним функцию random.uniform из Python-библиотеки numpy, переведем дюймы в сантиметры, а фунты в килограммы, и вот мы получаем реалистично выглядящий набор данных по размерам собак нескольких пород, с которым можно работать. В нашем примере это чихуахуа, бигли, ротвейлеры и английские сеттеры.

Одну из аналитик, которую можно применить для сравнения этих 4 числовых рядов – посмотреть на их медиану. Она разбивает ряд данных на две части: половина значений меньше медианы и остальная половина – больше. Медианные значения находим, группируя с помощью библиотеки pandas по столбцу «Порода» и применяя к сгруппированным данным функцию median. Аналогично можно было бы посмотреть и другие статистические показатели: среднее значение (mean) и моду (mode).

Видим, что половина встреченных нами чихуахуа имеет высоту в холке не больше 18 см, бигль значительно выше – в районе 41 см, и следующие по размерам – ротвейлер и английский сеттер, которые отличаются по росту незначительно: 58 и 63 см.

Но только одной медианы недостаточно для сравнительного анализа данных. Можно получить больше информации, если рассмотреть такой инструмент как диаграмма размаха (также известная как «ящик с усами», box-and-whiskers plot), построенную с помощью Python-библиотеки для построения графиков seaborn. Линия внутри ящика – это уже знакомая нам медиана. Ее уровень на графике справа (см. Рисунок 3) совпадает с высотой соответствующего столбца слева.

Но при этом диаграмма размаха содержит дополнительную информацию о том, как данные распределены внутри ряда: нижняя граница прямоугольника (ящика) – это первый квартиль (величина, превосходящая 25% значений ряда), а верхняя граница – третий квартиль (величина, превосходящая 75% значений).

А те самые «усы» — отрезки, отходящие вверх и вниз от середины прямоугольника – строятся на основе интерквартильного размаха и обозначают верхнюю и нижнюю границу значимой части наших данных, исключая выбросы. Здесь выбросы отсутствуют (дистрофиков и собак-гигантов нам в рассмотрение не попадалось), при наличии они отобразились бы метками за пределами «усов».

Скрипичный график (violinplot) из той же библиотеки seaborn дает нам еще больше информации о структуре рассматриваемых данных. Ниже на Рисунке 4 представлены все три графика, где породы идут каждый раз в одинаковом порядке, а цвет для соответствующего ряда сохраняется.

Например, зеленым показаны данные о ротвейлерах.

Сходства и различия диаграммы размаха (ящика с усами) и скрипичного графика показаны на следующем Рисунке 5. Сначала сходства: (1) оба графика в том или ином виде отражают 0.25-квантиль, 0.5-квантиль (медиану) и 0.75-квантиль; (2) и там, и там отражаются крайние значения, которые близки к величине полутора межквартильных интервалов (IQR), отложенных от нижнего и верхнего края коробки – те самые «усы» для диаграммы размаха, за пределами которых находятся «выбросы».

Отличие же состоит в том, что скрипичный график содержит также информацию о том, как данные распределены внутри, т.к. границы построенной «скрипки» — это повернутая на 90 градусов плотность распределения. И в этом случае при анализе графика у нас гораздо больше информации: в дополнение к квантилям и значениям, описывающим 4 интерквартильных расстояния (1.5 + 1 + 1.5) на скрипичном графике можно увидеть, распределены ли данные равномерно или есть несколько центров, где значения встречаются более часто.

Более ярко эту мысль можно увидеть на следующем графике (Рисунок 6), где данные по двум группам ротвейлеров отличаются, но подобраны таким образом, что медианы совпадают (крайний слева график) и даже больше – диаграммы размаха (в центре) тоже совпадают! И только скрипичный график (крайний справа) показывает нам, что на самом деле структура данных значительно отличается.

Используя кластеризацию К-средних (cluster.KMeans) из модуля sklearn, мы можем визуально представить сгруппированные данные, построив диаграмму разброса с помощью функции scatterplot модуля seaborn. Здесь цвет отделяет один кластер, созданный ML-алгоритмом, от другого, а форма маркера показывает исходную принадлежность к той или иной группе. Понижать размерность с помощью PCA или какого-либо другого метода здесь было не нужно, т.к. данные изначально 2D.

Код для кластеризации и построения диаграммы разброса:

Таким образом, на примере данных о высоте в холке нескольких пород собак мы познакомились с некоторыми статистическими характеристиками числовых рядов и инструментах их визуализации. Простой инструмент дает понятную метрику, но не дает полной картины. Более сложные инструменты дают более глубокую картину данных, но и воспринимаются также сложнее в силу увеличения количества информации на графике. И здесь важно выбирать инструмент под конкретную задачу, чтобы находить баланс между требующейся полнотой информации и простотой ее восприятия на графике.

Источник

Ящики, усы и скрипки

Очень часто данные необходимо сравнивать. Например, у нас есть несколько рядов данных из какой-то области деятельности человека (промышленности, медицины, государственного управления, …), и мы хотим сравнить, насколько они похожи или, наоборот, чем одни показатели выделяются по сравнению с другими. Для простоты восприятия возьмем данные более простые, универсальные и нейтральные — высоту в холке и вес нескольких пород собак по сведениям Американского клуба собаководства (American Kennel Club). Данные по размерам пород в среднем можно найти здесь. Прибавим к ним функцию random.uniform из Python-библиотеки numpy, переведем дюймы в сантиметры, а фунты в килограммы, и вот мы получаем реалистично выглядящий набор данных по размерам собак нескольких пород, с которым можно работать. В нашем примере это чихуахуа, бигли, ротвейлеры и английские сеттеры.

image loader

Одну из аналитик, которую можно применить для сравнения этих 4 числовых рядов – посмотреть на их медиану. Она разбивает ряд данных на две части: половина значений меньше медианы и остальная половина – больше. Медианные значения находим, группируя с помощью библиотеки pandas по столбцу «Порода» и применяя к сгруппированным данным функцию median. Аналогично можно было бы посмотреть и другие статистические показатели: среднее значение (mean) и моду (mode).

Видим, что половина встреченных нами чихуахуа имеет высоту в холке не больше 18 см, бигль значительно выше – в районе 41 см, и следующие по размерам – ротвейлер и английский сеттер, которые отличаются по росту незначительно: 58 и 63 см.

image loader

Рисунок 2. Медианные значения высоты в холке четырех пород собак.
Но только одной медианы недостаточно для сравнительного анализа данных. Можно получить больше информации, если рассмотреть такой инструмент как диаграмма размаха (также известная как «ящик с усами», box-and-whiskers plot), построенную с помощью Python-библиотеки для построения графиков seaborn. Линия внутри ящика – это уже знакомая нам медиана. Ее уровень на графике справа (см. Рисунок 3) совпадает с высотой соответствующего столбца слева. Но при этом диаграмма размаха содержит дополнительную информацию о том, как данные распределены внутри ряда: нижняя граница прямоугольника (ящика) – это первый квартиль (величина, превосходящая 25% значений ряда), а верхняя граница – третий квартиль (величина, превосходящая 75% значений). А те самые «усы» — отрезки, отходящие вверх и вниз от середины прямоугольника – строятся на основе интерквартильного размаха и обозначают верхнюю и нижнюю границу значимой части наших данных, исключая выбросы. Здесь выбросы отсутствуют (дистрофиков и собак-гигантов нам в рассмотрение не попадалось), при наличии они отобразились бы метками за пределами «усов».

image loader

Рисунок 3. Сравнение столбчатой и диаграммы размаха, построенных для одного и того же набора данных.
Скрипичный график (violinplot) из той же библиотеки seaborn дает нам еще больше информации о структуре рассматриваемых данных. Ниже на Рисунке 4 представлены все три графика, где породы идут каждый раз в одинаковом порядке, а цвет для соответствующего ряда сохраняется.

image loader

Рисунок 4. Сравнение столбчатой диаграммы, диаграммы размаха и скрипичного графика, построенных для одного и того же набора данных.
Например, зеленым показаны данные о ротвейлерах.

Сходства и различия диаграммы размаха (ящика с усами) и скрипичного графика показаны на следующем Рисунке 5. Сначала сходства: (1) оба графика в том или ином виде отражают 0.25-квантиль, 0.5-квантиль (медиану) и 0.75-квантиль; (2) и там, и там отражаются крайние значения, которые близки к величине полутора межквартильных интервалов (IQR), отложенных от нижнего и верхнего края коробки – те самые «усы» для диаграммы размаха, за пределами которых находятся «выбросы».

Отличие же состоит в том, что скрипичный график содержит также информацию о том, как данные распределены внутри, т.к. границы построенной «скрипки» — это повернутая на 90 градусов плотность распределения. И в этом случае при анализе графика у нас гораздо больше информации: в дополнение к квантилям и значениям, описывающим 4 интерквартильных расстояния (1.5 + 1 + 1.5) на скрипичном графике можно увидеть, распределены ли данные равномерно или есть несколько центров, где значения встречаются более часто.

image loader

Рисунок5. Пояснения по соответствию элементов двух графиков: размаха и скрипичного.
Более ярко эту мысль можно увидеть на следующем графике (Рисунок 6), где данные по двум группам ротвейлеров отличаются, но подобраны таким образом, что медианы совпадают (крайний слева график) и даже больше – диаграммы размаха (в центре) тоже совпадают! И только скрипичный график (крайний справа) показывает нам, что на самом деле структура данных значительно отличается.

image loader

Рисунок 6. Пример, когда только скрипичные график позволяет нам увидеть отличия во внутренней структуре рассматриваемых данных.
Используя кластеризацию К-средних (cluster.KMeans) из модуля sklearn, мы можем визуально представить сгруппированные данные, построив диаграмму разброса с помощью функции scatterplot модуля seaborn. Здесь цвет отделяет один кластер, созданный ML-алгоритмом, от другого, а форма маркера показывает исходную принадлежность к той или иной группе. Понижать размерность с помощью PCA или какого-либо другого метода здесь было не нужно, т.к. данные изначально 2D.

image loader

Код для кластеризации и построения диаграммы разброса:

image loader
image loader

Таким образом, на примере данных о высоте в холке нескольких пород собак мы познакомились с некоторыми статистическими характеристиками числовых рядов и инструментах их визуализации. Простой инструмент дает понятную метрику, но не дает полной картины. Более сложные инструменты дают более глубокую картину данных, но и воспринимаются также сложнее в силу увеличения количества информации на графике. И здесь важно выбирать инструмент под конкретную задачу, чтобы находить баланс между требующейся полнотой информации и простотой ее восприятия на графике.

Источник

Adblock
detector