Среднее против медианы против режима
Среднее значение, медиана и мода являются основными мерами центральной тенденции, используемыми в описательной статистике. Они полностью отличаются друг от друга, и случаи, в которых они используются для обобщения данных, также различны.
Жадный
Среднее арифметическое - это сумма значений данных, деленная на количество значений данных, т. Е.
Если данные взяты из пространства выборки, это называется средним значением выборки (
), которое представляет собой описательную статистику выборки. Хотя это наиболее часто используемый описательный показатель для выборки, это не надежная статистика. Он очень чувствителен к выбросам и колебаниям.
Например, рассмотрим средний доход жителей конкретного города. Поскольку все значения данных суммируются, а затем делятся, доход чрезвычайно богатого человека значительно влияет на среднее значение. Следовательно, средние значения не всегда являются хорошим представлением данных.
Кроме того, в случае переменного сигнала ток, проходящий через элемент, периодически изменяется от положительного направления к отрицательному и наоборот. Если мы возьмем средний ток, проходящий через элемент за один период, он даст 0, что означает, что через элемент не прошел ток, что, очевидно, неверно. Следовательно, и в этом случае среднее арифметическое не является хорошим показателем.
Среднее арифметическое - хороший показатель, когда данные распределены равномерно. Для нормального распределения среднее значение равно моде и медиане. Он также имеет самые низкие остатки при рассмотрении среднеквадратичной ошибки; следовательно, это лучший способ описания, когда требуется представить набор данных одним числом.
Медиана
Значения средней точки данных после упорядочивания всех значений данных в порядке возрастания определяются как медиана набора данных. Медиана - это 2-й квартиль, 5-й дециль и 50-й процентиль.
• Если количество наблюдений (точек данных) нечетное, то медиана - это наблюдение точно в середине упорядоченного списка.
• Если количество наблюдений (точек данных) четное, то медиана - это среднее значение двух средних наблюдений в упорядоченном списке.
Медиана делит наблюдение на две группы; т.е. группа (50%) значений выше и группа (50%) значений ниже медианы. Медианы специально используются в искаженных распределениях и представляют данные лучше, чем среднее арифметическое.
Режим
Режим - это наиболее часто встречающееся число в наборе наблюдений. Режим набора данных рассчитывается путем нахождения частоты каждого элемента в наборе.
• Если значение не встречается более одного раза, значит, в наборе данных нет режима.
• В противном случае любое значение, которое встречается с наибольшей частотой, является режимом набора данных.
В наборе может быть более 1 режима; следовательно, режим не является уникальной статистикой набора данных. В равномерном распределении есть одна мода. Режим дискретного распределения вероятностей - это точка, в которой функция массы вероятности достигает своей наивысшей точки. Используя приведенные выше интерпретации, можно сказать, что глобальные максимумы - это моды.
Рассмотрим применение всех трех мер к следующему набору данных.
ДАННЫЕ: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
Среднее значение = (1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25 = 8,12
Медиана = 9 (13-й элемент)
Mode = 9 (частота 9 = 5)
В чем разница между средним, медианным и модой?
• Среднее арифметическое - это сумма значений (наблюдений), деленная на количество наблюдений. Это не надежная статистика, и она сильно зависит от природы нормального распределения в рассматриваемом распределении. Один выброс может вызвать значительный сдвиг среднего значения, что приведет к относительно неверным значениям. Концепция может быть расширена до среднего геометрического, среднего гармонического, средневзвешенного и так далее.
• Медиана - это средние значения набора наблюдений, и на нее относительно меньше влияют выбросы. Это может дать хорошую оценку в качестве сводной статистики в случаях с большим перекосом.
• Режим - это наиболее распространенные значения наблюдений в наборе данных. Если распределение положительно смещено, мода лежит слева от медианы, а при отрицательном смещении мода лежит справа от медианы.
• При положительном перекосе среднее значение соответствует медиане; в случае отрицательного перекоса среднее значение находится слева от медианы.
• В нормальном распределении все три: среднее, мода и медиана равны.