Значение во множестве наблюдений которое встречается наиболее часто

Мода (статистика)

Мо́да — значение во множестве наблюдений, которое встречается наиболее часто. Случайная величина может не иметь моды. Иногда в совокупности встречается более чем одна мода (например: 2, 6, 6, 6, 8, 9, 9, 9, 10; мода = 6 и 9). В этом случае можно сказать, что совокупность мультимодальна. Из структурных средних величин только мода обладает таким уникальным свойством. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.

Мода как средняя величина употребляется чаще для данных, имеющих нечисловую природу. Среди перечисленных цветов автомобилей — белый, черный, синий металлик, белый, синий металлик, белый — мода будет равна белому цвету. При экспертной оценке с её помощью определяют наиболее популярные типы продукта, что учитывается при прогнозе продаж или планировании их производства.

См.также

Средние величины

Wikimedia Foundation . 2010 .

Магеллановы облака
Тик, Людвиг Иоганн

Полезное

Смотреть что такое «Мода (статистика)» в других словарях:

Мода (значения) — Мода: Мода непродолжительное господство определённого вкуса в какой либо сфере жизни или культуры. Мода (статистика) в теории вероятностей и статистике, одна из характеристик распределения; наиболее вероятное значение случайной… … Википедия
Мода (математика) — Мода значение во множестве наблюдений, которое встречается наиболее часто. Иногда в совокупности встречается более чем одна мода (например: 2, 6, 6, 6, 8, 9, 9, 9, 10; мода = 6 и 9). В этом случае можно сказать, что совокупность мультимодальна.… … Википедия
СТАТИСТИКА — СТАТИСТИКА. 1. Краткая история, предмет и основные понятия общей статистики. Предметом С. являет ся изучение совокупностей внутренне связанных хотя и внешне обособленных элементов. Внутренняя закономерность последних находит свое проявление… … Большая медицинская энциклопедия
Мода — * мода * mode описательная статистика. Соответствует значению признака, наиболее часто встречающемуся в исследуемой выборке (дата, см.) статистического вариационного ряда. При группировании вариант в классы М. это класс, включающий наибольшее… … Генетика. Энциклопедический словарь
Статистика — Гистограмма (метод графических изображений) У этого термина существуют и другие значения, с … Википедия
Статистика в психологии (statistics in psychology) — Первое применение С. в психологии часто связывают с именем сэра Фрэнсиса Гальтона. В психологии под «статистикой» понимается применение количественных мер и методов для описания и анализа результатов психол. исслед. Психологии как науке С.… … Психологическая энциклопедия
Медиана (статистика) — В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете … Википедия
Описательная статистика — Цель описательной (дескриптивной) статистики обработка эмпирических данных, их систематизация, наглядное представление в форме графиков и таблиц, а также их количественное описание посредством основных статистических показателей. В отличие от… … Википедия
Вариация (статистика) — У этого термина существуют и другие значения, см. Вариация. Вариация различие значений какого либо признака у разных единиц совокупности за один и тот же промежуток времени. Причиной возникновения вариации являются различные условия… … Википедия
ВАРИАЦИОННАЯ СТАТИСТИКА — ВАРИАЦИОННАЯ СТАТИСТИКА, термин, объединяющий группу приемов статистического анализа, применяющихся преимущественно в естественных науках. Во второй половине XIX в. Кетле (Quetelet, «Anthro pometrie ou mesure des differentes facultes de 1… … Большая медицинская энциклопедия

Обратная связь: Техподдержка, Реклама на сайте

�� Путешествия

Экспорт словарей на сайты, сделанные на PHP,
WordPress, MODx.

Пометить текст и поделитьсяИскать в этом же словареИскать синонимы
Искать во всех словарях
Искать в переводах
Искать в ИнтернетеИскать в этой же категории

Моды в T-SQL

— статистическое значение во множестве наблюдений, которое встречается наиболее часто. Возьмем, к примеру, таблицу Sales.Orders, которая содержит информацию о заказах. Каждый заказ был инициирован определенным клиентом и обслуживался каким-то сотрудником. Допустим, вы хотите узнать, какой сотрудник обслужил наибольшее число заказов определенного клиента. Такой сотрудник будет модой, потому что он чаще всего встречается в заказах этого клиента.

Естественно, возможно дублирование, если несколько сотрудников обработали наибольшее и равное число заказов определенного клиента. В зависимости от цели можно вернуть все дубликаты, либо разбить их. Я расскажу об обоих случаях. Если нужно разбить дубликаты и в качестве отличительного признака взять больший идентификатор сотрудника, тогда в качестве моды будет выбран сотрудник с максимальным идентификатором.

Принцип индексации здесь простой — надо создать индекс на основе (icustid, empid):

CREATE INDEX idx_custid_empid ON Sales.Orders(custid, empid);

Я начну с решения, в котором используется функция ROW_NUMBER. Прежде всего надо сгруппировать заказы по custid и empid, а затем вернуть число заказов в каждой группе:

SELECT custid, empid, COUNT(*) AS cnt FROM Sales.Orders GROUP BY custid, empid;

Результат запроса с группировкой заказов

Затем надо добавить вычисление с применением ROW_NUMBER, результаты которого надо секционировать по custid и упорядочить по COUNT(*) DESC, empid DESC. У каждого клиента строке с наибольшим числом (в случае совпадений, с наибольшим идентификатором сотрудника) присваивается номер 1:

SELECT custid, empid, COUNT(*) AS cnt, ROW_NUMBER() OVER(PARTITION BY custid ORDER BY COUNT(*) DESC, empid DESC) AS rn FROM Sales.Orders GROUP BY custid, empid;

Результат запроса с вычислением ROW_NUMBER

Наконец, надо отобрать только строки с номером «1» с помощью CTE:

WITH C AS ( SELECT custid, empid, COUNT(*) AS cnt, ROW_NUMBER() OVER(PARTITION BY custid ORDER BY COUNT(*) DESC, empid DESC) AS rn FROM Sales.Orders GROUP BY custid, empid ) SELECT custid, empid, cnt FROM C WHERE rn = 1;

Результат запроса с добавлением табличного выражения CTE

Так как для разрешения совпадений в определении упорядочения окна содержится empid DESC, нужно вернуть только по одной строке для каждого клиента. Если разрешать совпадения не нужно, вместо ROW_NUMBER используем функцию RANK и удаляем empid из предложения упорядочения окна:

WITH C AS ( SELECT custid, empid, COUNT(*) AS cnt, RANK() OVER(PARTITION BY custid ORDER BY COUNT(*) DESC) AS rn FROM Sales.Orders GROUP BY custid, empid ) SELECT custid, empid, cnt FROM C WHERE rn = 1;

Результат запроса с добавлением табличного выражения CTE без сортировки по empid

Как вы помните, в отличие от ROW_NUMBER функция RANK не различает дубликаты. Это означает, что при одинаковом значении упорядочения — в нашем случае это COUNT(*) — мы получим одинаковый ранг. Поэтому все строки с наибольшим (и равным) числом заказов получат ранг «1» и попадут в результаты. Заметьте, что в нашем случае есть два сотрудника с идентификаторами 1 и 4, которые обработали наибольшее число заказов клиента 1 — по два заказа каждый, поэтому они указаны в результатах оба.

Наверное вы уже поняли, что задача вычисления моды похожа на предыдущую задачу выбора первых n элементов в группе. Также вспомните, что помимо решения, основанного на оконных функциях, мы использовали параллельную сортировку. Но этот прием работает только, если n равно единице, и в нашем случае это означает, что нужно разрешать совпадения.

Чтобы реализовать принцип параллельной сортировки в этом случае, нужно создать конкатенированную строку, первая часть которой будет содержать число заказов, а вторая — идентификатор сотрудника:

SELECT custid, STR(COUNT(*), 10) + STR(empid, 10) COLLATE Latin1_General_BIN2 AS cntemp FROM Sales.Orders GROUP BY custid, empid;

Результат запроса с конкатенирующей строкой

Заметьте, что число заказов я преобразовал в сегменты с фиксированной длиной, а в идентификатор сотрудника добавил ведущие пробелы, чтобы строки сортировались точно в том же порядке, что и исходные целые значения. Преобразование в двоичную сортировку обеспечивает более эффективное сравнение строк.

Далее на основе этого запроса надо определить CTE, а затем во внешнем запросе сгруппировать строки по клиенту и определить максимальную (первую) строку в группе. В конце надо разбить строку на компоненты и привести их к исходным типам:

WITH C AS ( SELECT custid, STR(COUNT(*), 10) + STR(empid, 10) COLLATE Latin1_General_BIN2 AS cntemp FROM Sales.Orders GROUP BY custid, empid ) SELECT custid, CAST(SUBSTRING(MAX(cntemp), 11, 10) AS INT) AS empid, CAST(SUBSTRING(MAX(cntemp), 1, 10) AS INT) AS cnt FROM C GROUP BY custid;

Результат запроса с CTE и конкатенацией строк

Как говорилось в разделе, посвященном получении первых значений в группе, решение на основе оконных функций обеспечивает хорошую производительность, если есть индекс, поэтому нет смысла использовать более сложное решение с параллельной сортировкой. Но если индекса нет, это только что описанное решение обеспечивает более высокую производительность. По завершении надо выполнить следующий код очистки:

DROP INDEX idx_custid_empid ON Sales.Orders;

Мода распределения (Mode)

В статистике мода — это значение, которое случайная величина на заданном множестве наблюдений принимает наиболее часто. Мода образует пик на графике функции распределения. Если существуют несколько значений, которые встречаются значительно чаще, чем остальные, то у распределения может образовываться несколько мод (выраженных пиков).

Распределение с одной модой называется унимодальным, в противном случае — мультимодальным.

Для интервального ряда мода определяется по формуле:

M o = X M o + h M o ⋅ f M o − f M o − 1 ( f M o − f M o − 1 ) + ( f M o − f M o + 1 ) ,

X M o — левая граница модального интервала, h M o — длина модального интервала, f M o − 1 — частота премодального интервала, f M o — частота модального интервала, f M o + 1 — частота послемодального интервала.

В отличие от среднего и медианы, понятие моды имеет смысл и для номинальных данных. В этом случае модой считается категория, которая встречается наиболее часто. Например, фамилия, которая встречается в списке чаще всех других.

С точки зрения анализа данных, мода несёт информацию о «типичных» значениях признака, а не о наиболее вероятных (как среднее).

Мода (математика)

Мода — значение во множестве наблюдений, которое встречается наиболее часто. Иногда в совокупности встречается более чем одна мода (например: 2, 6, 6, 6, 8, 9, 9, 9, 10; мода = 6 и 9). В этом случае можно сказать, что совокупность мультимодальна. Из структурных средних величин только мода обладает таким уникальным свойством. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.

Мода, как средняя величина, употребляется чаще для данных, имеющих нечисловую природу. Среди перечисленных цветов автомобилей — белый, черный, синий металлик, белый, синий металлик, белый — мода будет равна белому цвету. При экспертной оценке с её помощью определяют наиболее популярные типы продукта, что учитывается при прогнозе продаж или планировании их производства.

См.также

Wikimedia Foundation . 2010 .

Смотреть что такое «Мода (математика)» в других словарях:

МАТЕМАТИКА — Математику обычно определяют, перечисляя названия некоторых из ее традиционных разделов. Прежде всего, это арифметика, которая занимается изучением чисел, отношений между ними и правил действий над числами. Факты арифметики допускают различные… … Энциклопедия Кольера
Портрет итальянского Ренессанса — Сандро Боттичелли. «Портрет юноши с медалью Козимо Медичи». 1470 1477. Уффици, Флоренция Портрет итальянского … Википедия
Среднее арифметическое — У этого термина существуют и другие значения, см. среднее значение. В математике и статистике среднее арифметическое одна из наиболее распространённых мер центральной тенденции, представляющая собой сумму всех наблюденных значений деленную на их… … Википедия
Друга Ріка — (рус. Вторая Река) украинская поп рок группа созданная в начале 1996 года в городе Житомире, Украина Друга Ріка Жанр Поп рок Годы с … Википедия
Миланский технический университет — Оригинальное название итал. Politecnico di Milano Прежние названия итал. … Википедия
Успенский, Яков Викторович — Яков Викторович Успенский Дата рождения: 29 апреля (11 мая) 1883(1883 05 11) Место рождения: Урга, Внешняя Монголия, Империя Цин Дата смерти: 27 января … Википедия
Флоренция* — (итал. Firenze, прежде Fiorenza, лат. Florentia цветущий город ) главный город провинции Ф., до 1859 г. главный город Тосканского великого герцогства, с 1865 до 1871 г. столица Итальянского королевства, под 43°46 с. ш. и 11°17 в. д. от Гринвича,… … Энциклопедический словарь Ф.А. Брокгауза и И.А. Ефрона
Флоренция, город — (итал. Firenze, прежде Fiorenza, лат. Florentia цветущий город ) гл. гор. провинции Ф., до 1859 г. гл. гор. Тосканского великого герцогства, с 1865 до 1871 г. столица Итальянского королевства, под 43° 46 с. ш. и 11° 17 в. д. от Грин., на высоте,… … Энциклопедический словарь Ф.А. Брокгауза и И.А. Ефрона
Сейлор Мун — Главная героиня аниме «Сейлор Мун», Усаги Цукино Sailor Moon (англ.) яп. 美少女戦士セーラームーン … Википедия
Египет — I (греч. Αϊγυπτος; лат. Aegyptus; фр. Egypte; англ. Egypt; нем. Aegypten; итал. Egytto; арабск. Masz). Положение, границы. Страна Е. (в узком, историческом смысле слова) лежит между 24°5 и 31°35 северной широты и 28°50 и 34°41 восточной долготы… … Энциклопедический словарь Ф.А. Брокгауза и И.А. Ефрона

Значение во множестве наблюдений которое встречается наиболее часто

Мода (статистика)

См.также

Полезное

Смотреть что такое «Мода (статистика)» в других словарях:

Моды в T-SQL

Мода распределения (Mode)

Мода (математика)

См.также

Смотреть что такое «Мода (математика)» в других словарях:

Добавить комментарий Отменить ответ