Статистика (statistics) — имеет 2 значения:
- непосредственно набор информации и данных
- методы сбора и обработки информации
Статистика делится на:
- описательная статистика (descriptive statistics) — о том, как эффективно суммировать данные чтобы описать важные моменты больших объемов данных. ОС превращает данные в информацию.
- статистический вывод (statistical inference) — включает в себя прогнозы, оценки, суждения о большой группе данных на основании маленькой выборки данных.
Генеральная совокупность (population) — все члены определенной группы. Описательная характеристика ген. совокупности называется параметр. В инвестиционном анализе важны параметры: среднее значение, разброс доходов, дисперсия.
Выборка (sample) — подмножество генеральной совокупности. Используя стат.методы, аналитик судит по выборке о свойствах генеральной совокупности.
Шкала измерений (measurement scale):
номинальная шкала (nominal scale) — самый слабый уровень измерения; шкала категоризирует данные, но не ранжирует их. Например взяли, и тупо от балды пронумеровали 10 типов фондов с различными стратегиями. Это номинальная шкала.
порядковая шкала (ordinary scale) — шкала сортирует данные по категориям в соответствии с определенными характеристиками. Например рейтинги фондов по их успешности, чем выше балл — тем надежнее фонд. - это порядковая шкала. Кредитные рейтинги — также относятся к порядковой шкале.
интервальная шкала (interval scale) — шкала, на которой происходит не только ранжирование характеристик, но и их равномерное распределение по шкале. Пример: шкала градусника.
шкала отношений (ratio scale) — самый сильный уровень измерения, обладает всеми характеристиками интервальной шкалы и имеет строго определенную нулевую точку. По этой шкале можно сравнить во сколько раз один объект больше другого. Пример — шкала доходности портфелей.
Плотность распределения (frequency distribution) — отражение данных, распределенное по небольшим интервалам. Помогает в анализе большихь объемов данных и работает со всеми шкалами измерений.
Параметр центра распределения (measure of central tendency) — определяют, где центрированы данные. Эти характеристики являются наиболее распространненными параметрами статистики, потому что их легко вычислить и применить.
Параметр сдвига (measure of location) — включает параметр центра и другие характеритики положения данных.
Арифметическое среднее (arithmetic mean) — сумма величин, поделенная на их количество.
Математическое ожидание (population mean) — среднее по всей генеральной совокупности.
Выборочное среднее (sample mean) — среднее по выборке.
Медиана (median) — значение среднего в наборе измерений (величин). Если у нас n измерений, то медианным значением будет значение величины n/2 в этой выборке, отсортированной по возрастанию. Если n -нечетно, то (n+1)/2.
Мода (mode) — то значение, которое наиболее часто встречается в распределении. Распределение может иметь 1 моду или не иметь ни одной.
Модальный интервал (modal interval) — интервал, в котором сосредоточено наибольшее число наблюдений (измерений). М.И. — это самый высокий столбик
гистограммы распределения.
Средневзвешенное (weighted mean) — вычисляет среднее по данным, которые имеют разные веса в зависимости от их категории.
Геометрическое среднее (geometric mean) — наиболее часто используются для того, чтобы сосчитать среднее значение темпов роста, доходности и т.п. Рассчитывается как корень n-й степени произведения n элементов выборки.
Среднее гармоническое (harmonic mean) - обратное суммы значений обратных величин.
квантиль (quantile) — наиболее общий термин, который обозначает, значение совпадающее или ниже, чем определенная доля значений данных.
дисперсия (dispersion) — показатель разброса значений вокруг среднего значения. Если среднее значение характеризует в статистике доход, то дисперсия характеризует риск.
Самые распространенные характеристики дисперсии:
полудисперсия (semivariance) — среднее отклонение значений которые меньше среднего.
неравенство Чебышева (Chebyshev's inequality) — случайная величина в основном принимает значения близкие к своему среднему. Более точно, оно даёт оценку вероятности, что случайная величина примет значение далёкое от своего среднего.