Базовый алгоритм для геоаналитических задач
Входные данные:
Записи о 2G и 3G транзакциях абонентов сотовых операторов;
Справочники базовых станций операторов сотовой связи;
Алгоритм:
Фильтрация строк с информацией о транзакциях за требуемый период;
Отбираются строки с информацией о транзакциях, где заполнены поля Идентификатора сим-карты (IMSI), Информация о локации (LAC), Идентификатор соты (Cell_ID);
Рассматриваются события входящие/исходящие сообщения, входящие/исходящие звонки, изменение локации (Location_Update), интернет-трафик;
Для каждого абонента формируются временные интервалы, в соответствии с транзакциями;
Объединяются последовательные временные интервалы, для которых событие зафиксировано на одной соте;
Данные уточняются при помощи справочника соседних базовых станций;
Для каждого временного интервала определяется, был ли абонент неподвижен или находился в движении;
Выходные данные:
Информация о местоположении абонентов в любой момент времени в виде: Идентификатор абонента; Время начала интервала; Время окончания интервала; Набор сот для абонента; Статус перемещения.
-
Базовый алгоритм для задач по машинному обучению
Входные данные:
Файлы в текстовом формате (*.csv);
Алгоритм:
Создание обучающей модели;
Реализация алгоритма взаимозависимых событий;
Нахождение полной вероятности наступления события в зависимости от априорной и апостериорной вероятности.
-
Реальная оценка посещаемости гражданами культурно-массовых мероприятий
Расчёт количества посетителей мероприятия
Входные данные:
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Список мероприятий;
Алгоритм:
Для каждого абонента в любой момент времени известна локация;
Данные сопоставляются со справочником локаций проведения мероприятий/учреждений культуры;
Определяется суммарное количество абонентов, посетивших культурное учреждение хотя бы один раз за рассматриваемый период;
Выходные данные:
Идентификатор мероприятия;
Дата;
Количество посетителей.
Район отправления посетителей (количество посетителей, которые прибыли из каждого района на мероприятие)
Входные данные:
Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
Справочник территориального деления;
API сервиса Яндекс.Карты;
Список мероприятий;
Алгоритм:
По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;
Данные сопоставляются со справочником территориального деления;
Статистика дополняется информацией сервиса Яндекс.Карты;
Данные агрегируются по учреждениям культуры и временным интервалам;
Выходные данные:
Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
Время, за которое посетитель добрался от места отправления до места проведения мероприятия (агрегированные данные)
Входные данные:
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Алгоритм:
Для каждого абонента определяется время начала и время окончания поездки;
На основании алгоритма определения расстояния между точками на окружности;
Рассчитывается время поездки для каждого абонента;
Выходные данные:
Идентификатор локации отправления;
Идентификатор локации прибытия;
Временной срез;
Количество посетителей.
Определение из дома или с работы отправился посетитель на мероприятие (агрегированные данные для каждого района)
Входные данные:
Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
API сервиса Яндекс.Карты;
Список мероприятий;
Справочник территориального деления;
Алгоритм:
По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;
Данные сопоставляются со справочником территориального деления;
Определяется количество абонентов, прибывших в район расположения учреждения культуры из дома;
Определяется количество абонентов, прибывших в район расположения учреждения культуры с работы;
Статистика дополняется информацией сервиса Яндекс.Карты;
Данные агрегируются по учреждениям культуры и временным интервалам;
Выходные данные:
Данные предоставляются в формате: Идентификатор мероприятия; Временной интервал; Количество абонентов; Количество абонентов, прибывших из дома; Количество абонентов, прибывших с работы.
Показатель доступности места проведения массового мероприятия в динамике в зависимости от времени.
Входные данные:
Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
API сервиса Яндекс.Карты;
Список мероприятий;
Алгоритм:
По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;
Данные сопоставляются со справочником территориального деления;
Определяется количество абонентов, находящихся в районе учреждения культуры проездом;
Определяется количество абонентов, находящихся в районе учреждения культуры дома;
Определяется количество абонентов, находящихся в районе учреждения культуры на работе;
Статистика дополняется информацией сервиса Яндекс.Карты;
Данные агрегируются по учреждениям культуры и временным интервалам;
Выходные данные:
Данные предоставляются в формате: Идентификатор мероприятия; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
Сегментация. Автомобилисты/Пассажиры метро.
Входные данные:
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Алгоритм:
Для каждого абонента определяется локация для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
Для локаций абонентов находятся соответствия по справочнику учреждений культуры;
Выделяются абоненты, транзакции которых отмечаются на базовых станциях, соответствующих метро;
Определяется скорость перемещения абонентов;
Выделяются маршруты следования абонентов;
Абоненты разделяются на группы: автомобилисты; пассажиры метро; передвигающиеся на маршрутном ТС; смешанный стиль;
Данные группируются по времени;
Выходные данные:
Абонент2 3;
Временной период;
Группа учреждений культуры;
Способ передвижения.
Сегментация. Пол/Возраст абонента
Входные данные:
Детальные данные о транзакциях сотовых операторов;
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Данные социальных сетей;
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
Алгоритм:
Обучение алгоритма для нахождения ключевых слов в тексте;
Классификация абонентов на группы по текстам сообщений;
Обогащение классификации данными из социальных сетей;
Определения количества транзакций абонентов, разделение на группы;
Определение количества и динамики перемещений;
Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;
Выходные данные:
Учреждение культуры;
Данные о поле посетителей в процентах;
Данные о возрасте посетителей в процентах.
-
Реальная оценка полезности проводимых ведомством культурно-массовых мероприятий, анализ общественного мнения
Парсинг текстовых интернет-ресурсов (социальные сети, блоги, форумы). Разделение рейтинга по группам пользователей
Входные данные:
API или XML-шлюз интернет-ресурсов;
Список культурно-массовых мероприятий;
Алгоритм:
Формирование обучающей выборки;
Проставление признаков, основанное на экспертном мнении;
Обучение алгоритма путем определения относительных частот значений всех атрибутов входных данных при фиксированных значениях атрибутов класса;
Парсинг ресурса;
Обработка сообщений интернет-ресурса при помощи обученного алгоритма;
Составление рейтинга;
Разделение на группы;
Выходные данные:
Название культурно-массового мероприятия;
Ссылка на статью;
Категория пользователя;
Статус.
Парсинг видео-/аудиоинтернет-ресурсов. Разделение рейтинга по группам пользователей
Входные данные:
Список ресурсов;
Список культурно-массовых мероприятий;
Алгоритм:
Формирование обучающей выборки;
Проставление признаков, основанное на экспертном мнении;
Обучение алгоритма путем определения относительных частот значений всех атрибутов входных данных при фиксированных значениях атрибутов класса;
Парсинг аудио-/видеозаписи;
Разбиение на фрагменты;
Обработка аудио-/видеозаписи интернет-ресурса при помощи обученного алгоритма;
Составление рейтинга;
Разделение на группы;
Выходные данные:
Название культурно-массового мероприятия;
Ссылка на запись;
Категория пользователя;
Статус.
Парсинг СМИ. Разделение рейтинга по группам пользователей
Входные данные:
API или XML-шлюз интернет-ресурсов;
Список культурно-массовых мероприятий;
Алгоритм:
Формирование обучающей выборки;
Проставление признаков, основанное на экспертном мнении;
Обучение алгоритма путем определения относительных частот значений всех атрибутов входных данных при фиксированных значениях атрибутов класса;
Парсинг аудио-/видеозаписи;
Разбиение на фрагменты;
Обработка аудио-/видеозаписи интернет-ресурса при помощи обученного алгоритма;
Составление рейтинга;
Разделение на группы;
Выходные данные:
Название культурно-массового мероприятия;
Ссылка на статью;
Категория пользователя;
Статус.
-
Анализ зоны влияния учреждений культуры в зависимости от их расположения на популяризацию культуры
Транспортная доступность культурных учреждений
Входные данные:
Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
API сервиса Яндекс.Карты;
Справочник территориального деления;
Алгоритм:
По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;
Данные сопоставляются со справочником территориального деления;
Определяется количество абонентов, находящихся в районе учреждения культуры проездом;
Определяется количество абонентов, находящихся в районе учреждения культуры дома;
Определяется количество абонентов, находящихся в районе учреждения культуры на работе;
Статистика дополняется информацией сервиса Яндекс.Карты;
Данные агрегируются по учреждениям культуры и временным интервалам;
Выходные данные:
Данные предоставляются в формате: Идентификатор культурного учреждения; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
Выделение из посетителей Influence Agents (Влияющих на мнение окружающих). Выделение групп общения.
Входные данные:
Детальные данные сотовых операторов о транзакциях;
Алгоритм:
Определяются меры центральности для определения:
Degree centrality колво абонентов, с которыми совершались транзакции за искомый период;
Betweenes centrality нахождение доли кратчайших путей, соединяющих все пары абонентов, звонки которых "проходят" через данного абонента. Находятся кратчайшие пути и их количество, а потом долю кратчайших путей относительно данного абонента;
Closeness centrality величина, обратная сумме длин кратчайших путей от данного абонента к остальным;
Eigenvalue centrality мера важности абонента в сети. Рассчитывается по принципу: соединение узла (абонента) с важными абонентами (у которых высокие показатели);
Выходные данные:
Абонент (Influence Agent);
Группа общения.
Определение количества районов, из которых приезжают посетители в культурное учреждение
Входные данные:
Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
Справочник территориального деления;
Алгоритм:
Для каждого абонента в любой момент времени известна локация;
Данные сопоставляются со справочником территориального деления;
Для каждого абонента, посетившего культурное учреждение хотя бы один раз за рассматриваемый период, определяется локация отправления;
Рассчитывается суммарное количество локаций отправления для каждого учреждения культуры;
Выходные данные:
Данные предоставляются в следующем формате: Идентификатор учреждения культуры; Количество районов отправления.
-
Помощь в принятии решения о месте проведения культурно-массовых мероприятий на основании анализа факторов, влияющих на его «удачность»
Выделение возраста абонентов в процентах для каждого района
Входные данные:
Детальные данные о транзакциях сотовых операторов;
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Данные социальных сетей;
Справочник территориального деления;
Алгоритм:
Обучение алгоритма для нахождения ключевых слов в тексте;
Классификация абонентов на группы по текстам сообщений;
Обогащение классификации данными из социальных сетей;
Определения количества транзакций абонентов, разделение на группы;
Определение количества и динамики перемещений;
Соотношение показателей, полученных в предыдущих пунктах со справочником территориального деления;
Выходные данные:
Идентификатор района;
Возрастная группа;
Процентное соотношение.
Выделение пола абонентов в процентах для каждого района
Входные данные:
Детальные данные о транзакциях сотовых операторов;
Данные социальных сетей;
Справочник территориального деления;
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Алгоритм:
Обучение алгоритма для нахождения ключевых слов в тексте;
Классификация абонентов на группы по текстам сообщений;
Обогащение классификации данными из социальных сетей;
Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;
Выходные данные:
Идентификатор района;
Пол;
Данные о поле посетителей в процентах.
Транспортная доступность района проведения мероприятия
Входные данные:
Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
Справочник локаций проведения мероприятий;
API сервиса Яндекс.Карты;
Справочник территориального деления;
Алгоритм:
По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;
Данные сопоставляются со справочником территориального деления;
Определяется количество абонентов, находящихся в районе локации проведения мероприятия проездом;
Определяется количество абонентов, находящихся в районе локации проведения мероприятия дома;
Определяется количество абонентов, находящихся в районе локации проведения мероприятия на работе;
Статистика дополняется информацией сервиса Яндекс.Карты;
Данные агрегируются по мероприятиям и временным интервалам;
Выходные данные:
Данные предоставляются в формате: Идентификатор мероприятия; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
Показатели посещаемости района в зависимости от времени суток
Входные данные:
Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
API сервиса Яндекс.Карты;
Справочник территориального деления;
Алгоритм:
По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
Определяется загруженность маршрутов следования для каждого района, как общее количество абонентов на маршруте в интервал времени;
Данные сопоставляются со справочником территориального деления;
Определяется количество абонентов, находящихся в районе проездом;
Определяется количество абонентов, находящихся в районе дома;
Определяется количество абонентов, находящихся в районе на работе;
Статистика дополняется информацией сервиса Яндекс.Карты;
Данные агрегируются по мероприятиям и временным интервалам;
Выходные данные:
Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
Количество посетителей из района, в котором находится культурное учреждение относительно общего количества жителей/работающего населения района
Входные данные:
Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
API сервиса Яндекс.Карты;
Справочник территориального деления;
Справочник учреждений культуры;
Алгоритм:
По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
Определяется загруженность маршрутов следования для каждого района, как общее количество абонентов на маршруте в интервал времени;
Данные сопоставляются со справочником территориального деления;
Определяется количество абонентов, находящихся в районе дома;
Определяется количество абонентов, находящихся в районе на работе;
Определяется количество посетителей учреждения культуры;
Статистика дополняется информацией сервиса Яндекс.Карты;
Данные агрегируются по мероприятиям и временным интервалам;
Выходные данные:
Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов дома; Количество абонентов на работе; Процентное соотношение по району.
-
Оценка эффективности использования денежных субсидий, выделяемых ведомством учреждениям культуры
Показатели динамики посещаемости культурных учреждений по месяцам
Входные данные:
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
Алгоритм:
Определение локации абонента в любой момент времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
Сопоставление локаций абонента со справочником учреждений культуры;
Определение количества посещений учреждения культуры за месяц;
Составление динамики посещений;
Выходные данные:
Учреждение культуры;
Количество посетителей за месяц n;
Количество посетителей за месяц n-1;
...;
Количество посетителей за месяц n-k.
Парсинг отзывов из интернет-ресурсов об учреждениях культуры. Составление рейтингов в динамике
Входные данные:
Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
Список интернет-ресурсов;
Список учреждений культуры;
Алгоритм:
Парсинг интернет-ресурсов, поиск ключевых слов;
Создание обучающей выборки;
Проставление признаков в выборке;
Формирование обучающего словаря;
Обучение на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);
Для получения качественных результатов обучение производится итеративно;
Формирование сводного рейтинга;
Выходные данные:
Идентификатор учреждения;
Дата;
Ссылка на статью;
Статус;
Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное, позитивное).
-
Отслеживание динамики общественно мнения в отношении деятельности Министерства и его руководства
Парсинг отзывов о Министерстве и его руководстве из интернет-ресурсов (социальные сети, блоги, форумы)
Входные данные:
Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
Список интернет-ресурсов;
Список деятелей министерства;
Алгоритм:
Парсинг интернет-ресурсов, поиск ключевых слов;
Создание обучающей выборки;
Проставление признаков в выборке;
Формирование обучающего словаря;
Обучение на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);
Для получения качественных результатов обучение производится итеративно;
Формирование сводного рейтинга;
Выходные данные:
Деятель министерства;
Дата;
Ссылка на статью;
Статус;
Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное, позитивное).
-
Количество публикаций в СМИ о деятельности каждого Департамента
Создание алгоритма поиска сообщений на основании обучающей выборки
Входные данные:
Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
Список департаментов;
Алгоритм:
Парсинг интернет-ресурсов, поиск ключевых слов;
Создание обучающей выборки;
Подсчёт количества публикаций;
Выходные данные:
Идентификатор департамента;
Дата;
Количество публикаций.
-
Образ Министерства
Построение рейтинга отзывов по категориям (деятели культуры, журналисты, массовые потребители) на основании информации СМИ, социальных сетей, блогов, форумов
Входные данные:
Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
Список интернет-ресурсов;
Список деятелей Министерства;
Алгоритм:
Парсинг интернет-ресурсов, поиск ключевых слов;
Создание обучающей выборки;
Проставление признаков в выборке;
Формирование обучающего словаря;
Обучение на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);
Для получения качественных результатов обучение производится итеративно;
Классификация отзывов по группам пользователей;
Формирование сводного рейтинга;
Выходные данные:
Деятель министерства;
Дата;
Ссылка на статью;
Категория пользователей;
Статус;
Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное, позитивное), а в поле категория пользователей разделение по категориям (деятели культуры, журналисты, массовые потребители).
-
Профиль потребителя услуг учреждений культуры
Сегментация по возрастным категориям
Входные данные:
Детальные данные о транзакциях сотовых операторов;
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Данные социальных сетей;
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
Алгоритм:
Обучение алгоритма для нахождения ключевых слов в тексте;
Классификация абонентов на группы по текстам сообщений;
Обогащение классификации данными из социальных сетей;
Определения количества транзакций абонентов, разделение на группы;
Определение количества и динамики перемещений;
Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;
Выходные данные:
Учреждение культуры;
Данные о возрасте посетителей в процентах.
Входные данные:
Детальные данные о транзакциях сотовых операторов;
Данные социальных сетей;
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
Алгоритм:
Обучение алгоритма для нахождения ключевых слов в тексте;
Классификация абонентов на группы по текстам сообщений;
Обогащение классификации данными из социальных сетей;
Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;
Выходные данные:
Учреждение культуры;
Данные о поле посетителей в процентах.
Сегментация по мобильности
Входные данные:
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Справочник территориального деления;
Алгоритм:
Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
Определяется для каждой локации территориального деления количество абонентов в интервал времени;
В соответствии с количеством изменений локаций абонента, определяется коэффициент мобильности;
Данные агрегируются по группам мобильности;
Выходные данные:
Идентификатор района;
Группа мобильности;
Количество человек.
Сегментация по количеству посещений/динамике посещений учреждений культуры
Входные данные:
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
Алгоритм:
Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
Определяется общее количество посещений абонентом локации учреждения культуры за заданный период;
Рассчитывается динамический показатель за длительный период по месяцам;
Данные агрегируются по учреждениям культуры;
Выходные данные:
Идентификатор учреждения культуры;
Количество посещений за текущий период;
Количество посещений в динамике.
Сегментация по интересам (театр, музеи и т.д.)4 5
Входные данные:
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Справочник учреждений культуры (spape-файлы с граничными координатами) с разделением на группы. Предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;
Алгоритм:
Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
Для локаций абонентов находятся соответствия по справочнику учреждений культуры;
Данные группируются по учреждениям культуры;
Выходные данные:
Абонент;
Группа учреждений культуры;
Количество посещений.
Сегментация по составу семьи/группам общения4 5
Входные данные:
Детальные данные о транзакциях абонентов сотовых операторов;
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Алгоритм:
Для каждого абонента выделяются группы телефонных номеров, с максимальным количеством транзакций;
Определяется локация абонентов в любой момент времени в соответствии с базовым алгоритмом для геоаналитических задач (см. подраздел 3.5.1.);
Определяется домашняя локация абонентов, как топовая за рассматриваемый период с 23.00 до 06.00;
Абоненты считаются принадлежащими одной семье, если они входят в группу общения и имеют одинаковую домашнюю локацию;
Выходные данные:
Абонент;
Группа общения;
Признак, где в поле группа общения записываются номера абонентов из группы общения, а в поле признак записывается является ли группа общения домашней или нет.
Сегментация по способу передвижения6 7
Входные данные:
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Алгоритм:
Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);
Для локаций абонентов находятся соответствия по справочнику учреждений культуры;
Выделяются абоненты, транзакции которых отмечаются на базовых станциях, соответствующих метро;
Определяется скорость перемещения абонентов;
Выделяются маршруты следования абонентов;
Абоненты разделяются на группы: автомобилисты; пассажиры метро; передвигающиеся на маршрутном ТС; смешанный стиль;
Данные группируются по времени;
Выходные данные:
Абонент;
Временной период;
Группа учреждений культуры;
Способ передвижения.
Сегментация по интернет-активности8 9
Входные данные:
Детальные данные о транзакциях абонентов сотовых операторов;
Алгоритм:
Определение количества интернет-трафика;
Определение количества посещённых ресурсов;
Выходные данные:
Абонент;
Количество интернет-трафика;
Количество посещённых ресурсов.
Сегментация по активности в мобильной сети8 9
Входные данные:
Детальные данные о транзакциях абонентов сотовых операторов;
Алгоритм:
Для каждого абонента находится количество входящих/исходящих звонков;
Определяется продолжительность звонков;
Для каждого абонента находится количество входящих/исходящих sms/mms;
Определяется количество уникальных абонентов с которыми совершались транзакции;
Строится сводная таблица по показателям;
Выходные данные:
Абонент;
Количество входящих звонков;
Количество исходящих звонков;
Количество входящих сообщений;
Количество исходящих сообщений;
Количество уникальных связей.
-
Пересечение аудитории (демографическое, географическое и т.п.)
Анализ направления движения (треков) посетителей
Входные данные:
Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);
API сервиса Яндекс.Карты;
Справочник территориального деления;
Алгоритм:
По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;
Определяется загруженность маршрутов следования для каждого района, как общее количество абонентов на маршруте в интервал времени;
Данные сопоставляются со справочником территориального деления;
Определяется количество абонентов, находящихся в районе проездом;
Определяется количество абонентов, находящихся в районе дома;
Определяется количество абонентов, находящихся в районе на работе;
Статистика дополняется информацией сервиса Яндекс.Карты;
Данные агрегируются по мероприятиям и временным интервалам;
Выходные данные:
Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.
Тепловая карта по количеству посетителей учреждений культуры в нескольких срезах (по количеству посещений за период, по времени посещения, по отзывам, по направлениям, по транспортной доступности)
Предпочтительным решением для реализации является SAP BI (SAP Business Objects). Финансовая оценка в таблице (см. Таблица 7) указана без стоимости лицензии на продукт.
Входные данные:
Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);
Отчёт 3.5.12.1. Анализ направления движения (треков) посетителей;
Отчёт 3.5.5.1. Транспортная доступность культурных учреждений;
Отчёт 3.5.7.2. Парсинг отзывов из интернет-ресурсов об учреждениях культуры. Составление рейтингов в динамике;
Алгоритм:
Построение тепловой карты по данным из отчётов.
-
Воспрепятствование продвижению на киноэкраны произведений, содержание которых выходит за рамки ограничений, предусмотренных действующими федеральными законами
Парсинг и обучение модели для сортировки фильмов по тексту сценария (разрешённых и запрещённых для массового показа)
Входные данные:
Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
Сценарии фильмов в текстовом формате;
Алгоритм:
Создание обучающей выборки;
Проставление признаков в выборке;
Формирование обучающего словаря;
Парсинг текста сценариев;
Обучение текстов сценариев на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);
Для получения качественных результатов обучение производится итеративно;
Выходные данные:
Название фильма;
Ключевые слова;
Вердикт, где в списке ключевых слов указаны все слова из сценария, влияющие на запрет для массового показа данного фильма, а в поле вердикт указано разрешён или запрещён фильм для показа по результатам обработки алгоритмом.
Алгоритм автоматического определения возрастного ценза
Входные данные:
Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);
Сценарии фильмов в текстовом формате;
Алгоритм:
Создание обучающей выборки;
Проставление признаков в выборке;
Формирование обучающего словаря;
Парсинг текста сценариев;
Обучение текстов сценариев на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);
Для получения качественных результатов обучение производится итеративно;
Выходные данные:
Название фильма;
Ключевые слова;
Возрастной ценз, где в списке ключевых слов указаны все слова из сценария, влияющие на запрет для массового показа данного фильма, а в поле возрастной ценз указан возраст аудитории, для которой разрешён просмотр данного фильма по результатам обработки алгоритмом.
|