[МУЗЫКА] [МУЗЫКА] Один из способов описать центральную тенденцию — это медиана. Если мы отсортируем ряд наблюдений, медиана окажется ровно посередине. Если в этом ряду будет четное количество наблюдений, как здесь, она окажется между двумя центральными. Давайте себе представим, что вы поехали в командировку. И были там шесть дней, и вам приходилось обедать в кафе. И каждый день вы записывали, сколько вы тратили на обед. Давайте запишем это в вектор, назовем его lunch. Это будет именованный вектор, мы напишем название дня недели, и чему равны ваши траты. В половине случаев окажется, что вы тратите меньше, чем медианная стоимость обеда, в половине — больше. То есть медиана хорошо охарактеризует наиболее, так сказать, центральные ваши траты. Если мы отсортируем ряд наблюдений при помощи функции sort, то мы выясним, что медиана находится ровно между двумя центральными. То есть нам придется вычислить значение, которое между 310 и 320 рублей находится. Это будет 315 рублей. Давайте себя проверим. В R есть специальная функция, медиана. Мы ей передаем наш вектор со стоимостью обеда, и она нам говорит: «315 рублей — это медианная стоимость». В половине случаев вы потратили меньше, в половине — больше. Если в ряду нечетное количество наблюдений, то медиану найти еще удобнее: она окажется ровно в центре. Давайте себе представим, что вам пришлось обедать и в воскресенье. Вы задержались в командировке, и таким образом у нас этот вектор lunch стал из семи элементов. Давайте добавим воскресные траты. Это будет праздничный обед, 430 рублей, довольно много по сравнению со всем остальным. Как поведет себя медиана? Медиана — это центральное наблюдение в отсортированном ряду. При помощи функции median мы проверяем, и оказывается, что мы все вычислили правильно. Кроме медианы, существует еще много чисел, которые делят ряд наблюдений на равное число частей. Например, квартили делят ряд наблюдений на четыре равных части, децили делят на десять равных частей, перцентили — на 100 равных. Фактически можно на любое количество равных частей разделить и получить свою какую-то меру. Наиболее популярной из всех таких мер является квартиль. Квартили делят ряд наблюдений на четыре равные части. 25 % наблюдений будут меньше первого квартиля, между первым и вторым квартилем будут еще 25 %. Второй квартиль — это, само собой, медиана, 50 % меньше нее. И так далее, между каждым из квартилей будет по 25 %. Квартили вместе с минимум и максимумом — это одно из популярных кратких численных описаний данных, которое называется five-number summary. Из него можно очень многое узнать о распределении наших данных. Например, если мы посчитаем five-number summary для нашего вектора со стоимостью обеда, мы узнаем, что минимальная стоимость обеда была 285 рублей, максимальная — 363 рубля, 50 % наблюдений, 50 % обедов были дороже 315 рублей, и если мы возьмем те обеды, которые стоили не мало и не много, то они стоили в пределах от 300 рублей примерно до 330. Очень много всего мы знаем о распределении. Перцентиль — это частный случай квантиля. Перцентили делят ряд наблюдений на 100 частей, и они нам пригодятся, для того чтобы потом считать уровни значимости для статистических тестов. А сейчас давайте просто потренируемся и посчитаем какие-нибудь перцентили для нашего ряда наблюдений со стоимостью обеда. Это делается тоже при помощи функции quantile, без аргументов она возвращает five-number summary, а если мы ей передадим аргумент probs с вероятностями, она посчитает те перцентили, которые мы хотим. Не очень удобно смотреть на сухие цифры, давайте попробуем изобразить медиану и квантили на графиках. В следующем видео мы как раз займемся тем, что будем строить boxplot. [БЕЗ_ЗВУКА]