Предлагаю вашему вниманию новый пост о применении data mining к текстам, спарсенным из блогов Смартлаба.
Идея исследования: ежемесячно парсить все посты со Смартлаба и применять к ним метод из класса методов тематического моделирования.
В прошлый раз был применён метод BigARTM из класса методов тематического моделирования. Ряд темы оказались не вполне интерпретируемы. Кроме того этот метод — несмотря на всю его прогрессивность (детальное описание: Воронцов К.В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация) по сравнению со, скажем, методом LDA - не лишён существенных недостатков. Так, он не позволяет юзеру автоматически выбирать число тем, а также не предлагает метрики для выяснения, какую долю исходной информации позволяет сохранить модель в целом и отдельные темы — в частности
Поэтому моя команда разработала собственный оригинальный метод тематического моделирования. Он позволяет группировать слова («термы», «токены») из множества документов по темам. При этом — в отличие от большинства аналогов — он позволяет автоматически выбирать число тем, а также включает простые и понятные метрики, которые позволяют выяснить, какую долю исходной информации позволяет сохранить модель в целом и отдельные темы — в частности.
За весь прошлый год Министерство финансов США разместило облигаций на 2,4 трлн долларов, тогда как спрос на них составил 6,24 трлн долларов. Таким образом, объем подтвержденных заявок превысил предложение в 2,6 раза, что является самым низким показателем с 2008 г., сообщило агентство Bloomberg.
Начало текущего года не вселило оптимизма — на первом аукционе предложение превысило спрос лишь в 2,4 раза.
Также стоит отметить, что среднесуточный объем торгов американскими гособлигациями в 2018 г. составил 547,8 млрд долларов, что ниже чем в 2011 г. на 20 млрд долларов. Но за это же время сумма госдолга страны выросла в 1,5 раза.
По ФА…
Nonfarm Payrolls
Отчет по рынку труда вышел сильным, превысив все ожидания банков и участников рынка, но реакция на него была неоправданно слабой.
Возможно, инвесторы не торопились покупать доллар, ожидая выступление главы ФРС Пауэлла, и они не ошиблись в своих ожиданиях.
Основные компоненты отчета по рынку труда за декабрь:
— Количество новых рабочих мест 312К против 180К+- прогноза, ревизия за два предыдущих месяца +58К: октябрь пересмотрен до 274К против 237К ранее, ноябрь до 176К против 155К ранее;
— Уровень безработицы U3 3,9% против 3,7% ранее;
— Уровень безработицы U6 7,6% против 7,6% ранее;
— Уровень участия в рабочей силе 63,1% против 62,9% ранее;
— Рост зарплат 0,4%мм 3,2%гг против 0,2%мм 3,1%гг ранее;
— Средняя продолжительность рабочей недели 34,5 против 34,4 ранее.
Впечатляющие данные, даже с учетом того, что большинство новых рабочих мест было создано в сфере услуг.
Ревизия вверх за два предыдущих месяца усиливает позитив.
Но главным плюсом стал рост зарплат и причиной стала не низкая база прошлого года, как ранее, а чистый рост по месяцу: