Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры»


Скачать 1.36 Mb.
Название Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры»
страница 10/11
Тип Отчет
rykovodstvo.ru > Руководство эксплуатация > Отчет
1   2   3   4   5   6   7   8   9   10   11

Базовый алгоритм для геоаналитических задач


Входные данные:

  • Записи о 2G и 3G транзакциях абонентов сотовых операторов;

  • Справочники базовых станций операторов сотовой связи;

Алгоритм:

  • Фильтрация строк с информацией о транзакциях за требуемый период;

  • Отбираются строки с информацией о транзакциях, где заполнены поля Идентификатора сим-карты (IMSI), Информация о локации (LAC), Идентификатор соты (Cell_ID);

  • Рассматриваются события входящие/исходящие сообщения, входящие/исходящие звонки, изменение локации (Location_Update), интернет-трафик;

  • Для каждого абонента формируются временные интервалы, в соответствии с транзакциями;

  • Объединяются последовательные временные интервалы, для которых событие зафиксировано на одной соте;

  • Данные уточняются при помощи справочника соседних базовых станций;

  • Для каждого временного интервала определяется, был ли абонент неподвижен или находился в движении;

Выходные данные:

  • Информация о местоположении абонентов в любой момент времени в виде: Идентификатор абонента; Время начала интервала; Время окончания интервала; Набор сот для абонента; Статус перемещения.
  1. Базовый алгоритм для задач по машинному обучению


Входные данные:

  • Файлы в текстовом формате (*.csv);

Алгоритм:

  • Создание обучающей модели;

  • Реализация алгоритма взаимозависимых событий;

  • Нахождение полной вероятности наступления события в зависимости от априорной и апостериорной вероятности.
  1. Реальная оценка посещаемости гражданами культурно-массовых мероприятий

Расчёт количества посетителей мероприятия


Входные данные:

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

  • Список мероприятий;

Алгоритм:

  • Для каждого абонента в любой момент времени известна локация;

  • Данные сопоставляются со справочником локаций проведения мероприятий/учреждений культуры;

  • Определяется суммарное количество абонентов, посетивших культурное учреждение хотя бы один раз за рассматриваемый период;

Выходные данные:

  • Идентификатор мероприятия;

  • Дата;

  • Количество посетителей.

Район отправления посетителей (количество посетителей, которые прибыли из каждого района на мероприятие)


Входные данные:

  • Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);

  • Справочник территориального деления;

  • API сервиса Яндекс.Карты;

  • Список мероприятий;

Алгоритм:

  • По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;

  • Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;

  • Данные сопоставляются со справочником территориального деления;

  • Статистика дополняется информацией сервиса Яндекс.Карты;

  • Данные агрегируются по учреждениям культуры и временным интервалам;

Выходные данные:

  • Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.

Время, за которое посетитель добрался от места отправления до места проведения мероприятия (агрегированные данные)


Входные данные:

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Алгоритм:

  • Для каждого абонента определяется время начала и время окончания поездки;

  • На основании алгоритма определения расстояния между точками на окружности;

  • Рассчитывается время поездки для каждого абонента;

Выходные данные:

  • Идентификатор локации отправления;

  • Идентификатор локации прибытия;

  • Временной срез;

  • Количество посетителей.

Определение из дома или с работы отправился посетитель на мероприятие (агрегированные данные для каждого района)


Входные данные:

  • Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);

  • Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;

  • API сервиса Яндекс.Карты;

  • Список мероприятий;

  • Справочник территориального деления;

Алгоритм:

  • По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;

  • Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;

  • Данные сопоставляются со справочником территориального деления;

  • Определяется количество абонентов, прибывших в район расположения учреждения культуры из дома;

  • Определяется количество абонентов, прибывших в район расположения учреждения культуры с работы;

  • Статистика дополняется информацией сервиса Яндекс.Карты;

  • Данные агрегируются по учреждениям культуры и временным интервалам;

Выходные данные:

  • Данные предоставляются в формате: Идентификатор мероприятия; Временной интервал; Количество абонентов; Количество абонентов, прибывших из дома; Количество абонентов, прибывших с работы.

Показатель доступности места проведения массового мероприятия в динамике в зависимости от времени.


Входные данные:

  • Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);

  • Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;

  • API сервиса Яндекс.Карты;

  • Список мероприятий;

Алгоритм:

  • По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;

  • Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;

  • Данные сопоставляются со справочником территориального деления;

  • Определяется количество абонентов, находящихся в районе учреждения культуры проездом;

  • Определяется количество абонентов, находящихся в районе учреждения культуры дома;

  • Определяется количество абонентов, находящихся в районе учреждения культуры на работе;

  • Статистика дополняется информацией сервиса Яндекс.Карты;

  • Данные агрегируются по учреждениям культуры и временным интервалам;

Выходные данные:

  • Данные предоставляются в формате: Идентификатор мероприятия; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.

Сегментация. Автомобилисты/Пассажиры метро.


Входные данные:

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Алгоритм:

  • Для каждого абонента определяется локация для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);

  • Для локаций абонентов находятся соответствия по справочнику учреждений культуры;

  • Выделяются абоненты, транзакции которых отмечаются на базовых станциях, соответствующих метро;

  • Определяется скорость перемещения абонентов;

  • Выделяются маршруты следования абонентов;

  • Абоненты разделяются на группы: автомобилисты; пассажиры метро; передвигающиеся на маршрутном ТС; смешанный стиль;

  • Данные группируются по времени;

Выходные данные:

  • Абонент2 3;

  • Временной период;

  • Группа учреждений культуры;

  • Способ передвижения.

Сегментация. Пол/Возраст абонента


Входные данные:

  • Детальные данные о транзакциях сотовых операторов;

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

  • Данные социальных сетей;

  • Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;

Алгоритм:

  • Обучение алгоритма для нахождения ключевых слов в тексте;

  • Классификация абонентов на группы по текстам сообщений;

  • Обогащение классификации данными из социальных сетей;

  • Определения количества транзакций абонентов, разделение на группы;

  • Определение количества и динамики перемещений;

  • Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;

  • Выходные данные:

  • Учреждение культуры;

  • Данные о поле посетителей в процентах;

  • Данные о возрасте посетителей в процентах.
  1. Реальная оценка полезности проводимых ведомством культурно-массовых мероприятий, анализ общественного мнения


    1. Парсинг текстовых интернет-ресурсов (социальные сети, блоги, форумы). Разделение рейтинга по группам пользователей

Входные данные:

  • API или XML-шлюз интернет-ресурсов;

  • Список культурно-массовых мероприятий;

Алгоритм:

  • Формирование обучающей выборки;

  • Проставление признаков, основанное на экспертном мнении;

  • Обучение алгоритма путем определения относительных частот значений всех атрибутов входных данных при фиксированных значениях атрибутов класса;

  • Парсинг ресурса;

  • Обработка сообщений интернет-ресурса при помощи обученного алгоритма;

  • Составление рейтинга;

  • Разделение на группы;

Выходные данные:

  • Название культурно-массового мероприятия;

  • Ссылка на статью;

  • Категория пользователя;

  • Статус.

  1. Парсинг видео-/аудиоинтернет-ресурсов. Разделение рейтинга по группам пользователей

Входные данные:

  • Список ресурсов;

  • Список культурно-массовых мероприятий;

Алгоритм:

  • Формирование обучающей выборки;

  • Проставление признаков, основанное на экспертном мнении;

  • Обучение алгоритма путем определения относительных частот значений всех атрибутов входных данных при фиксированных значениях атрибутов класса;

  • Парсинг аудио-/видеозаписи;

  • Разбиение на фрагменты;

  • Обработка аудио-/видеозаписи интернет-ресурса при помощи обученного алгоритма;

  • Составление рейтинга;

  • Разделение на группы;

Выходные данные:

  • Название культурно-массового мероприятия;

  • Ссылка на запись;

  • Категория пользователя;

  • Статус.

  1. Парсинг СМИ. Разделение рейтинга по группам пользователей

Входные данные:

  • API или XML-шлюз интернет-ресурсов;

  • Список культурно-массовых мероприятий;

Алгоритм:

  • Формирование обучающей выборки;

  • Проставление признаков, основанное на экспертном мнении;

  • Обучение алгоритма путем определения относительных частот значений всех атрибутов входных данных при фиксированных значениях атрибутов класса;

  • Парсинг аудио-/видеозаписи;

  • Разбиение на фрагменты;

  • Обработка аудио-/видеозаписи интернет-ресурса при помощи обученного алгоритма;

  • Составление рейтинга;

  • Разделение на группы;

Выходные данные:

  • Название культурно-массового мероприятия;

  • Ссылка на статью;

  • Категория пользователя;

  • Статус.
  1. Анализ зоны влияния учреждений культуры в зависимости от их расположения на популяризацию культуры


    1. Транспортная доступность культурных учреждений

Входные данные:

  • Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);

  • Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;

  • API сервиса Яндекс.Карты;

  • Справочник территориального деления;

Алгоритм:

  • По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;

  • Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;

  • Данные сопоставляются со справочником территориального деления;

  • Определяется количество абонентов, находящихся в районе учреждения культуры проездом;

  • Определяется количество абонентов, находящихся в районе учреждения культуры дома;

  • Определяется количество абонентов, находящихся в районе учреждения культуры на работе;

  • Статистика дополняется информацией сервиса Яндекс.Карты;

  • Данные агрегируются по учреждениям культуры и временным интервалам;

Выходные данные:

  • Данные предоставляются в формате: Идентификатор культурного учреждения; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.

  1. Выделение из посетителей Influence Agents (Влияющих на мнение окружающих). Выделение групп общения.

Входные данные:

  • Детальные данные сотовых операторов о транзакциях;

Алгоритм:

Определяются меры центральности для определения:

  • Degree centrality колво абонентов, с которыми совершались транзакции за искомый период;

  • Betweenes centrality нахождение доли кратчайших путей, соединяющих все пары абонентов, звонки которых "проходят" через данного абонента. Находятся кратчайшие пути и их количество, а потом долю кратчайших путей относительно данного абонента;

  • Closeness centrality величина, обратная сумме длин кратчайших путей от данного абонента к остальным;

  • Eigenvalue centrality мера важности абонента в сети. Рассчитывается по принципу: соединение узла (абонента) с важными абонентами (у которых высокие показатели);

Выходные данные:

  • Абонент (Influence Agent);

  • Группа общения.

  1. Определение количества районов, из которых приезжают посетители в культурное учреждение

Входные данные:

  • Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);

  • Справочник территориального деления;

Алгоритм:

  • Для каждого абонента в любой момент времени известна локация;

  • Данные сопоставляются со справочником территориального деления;

  • Для каждого абонента, посетившего культурное учреждение хотя бы один раз за рассматриваемый период, определяется локация отправления;

  • Рассчитывается суммарное количество локаций отправления для каждого учреждения культуры;

Выходные данные:

  • Данные предоставляются в следующем формате: Идентификатор учреждения культуры; Количество районов отправления.
  1. Помощь в принятии решения о месте проведения культурно-массовых мероприятий на основании анализа факторов, влияющих на его «удачность»


    1. Выделение возраста абонентов в процентах для каждого района

Входные данные:

  • Детальные данные о транзакциях сотовых операторов;

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

  • Данные социальных сетей;

  • Справочник территориального деления;

Алгоритм:

  • Обучение алгоритма для нахождения ключевых слов в тексте;

  • Классификация абонентов на группы по текстам сообщений;

  • Обогащение классификации данными из социальных сетей;

  • Определения количества транзакций абонентов, разделение на группы;

  • Определение количества и динамики перемещений;

  • Соотношение показателей, полученных в предыдущих пунктах со справочником территориального деления;

Выходные данные:

  • Идентификатор района;

  • Возрастная группа;

  • Процентное соотношение.

  1. Выделение пола абонентов в процентах для каждого района

Входные данные:

  • Детальные данные о транзакциях сотовых операторов;

  • Данные социальных сетей;

  • Справочник территориального деления;

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Алгоритм:

  • Обучение алгоритма для нахождения ключевых слов в тексте;

  • Классификация абонентов на группы по текстам сообщений;

  • Обогащение классификации данными из социальных сетей;

  • Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;

Выходные данные:

  • Идентификатор района;

  • Пол;

  • Данные о поле посетителей в процентах.

  1. Транспортная доступность района проведения мероприятия

Входные данные:

  • Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);

  • Справочник локаций проведения мероприятий;

  • API сервиса Яндекс.Карты;

  • Справочник территориального деления;

Алгоритм:

  • По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;

  • Определяется загруженность маршрутов следования для каждого учреждения культуры, как общее количество абонентов на маршруте в интервал времени;

  • Данные сопоставляются со справочником территориального деления;

  • Определяется количество абонентов, находящихся в районе локации проведения мероприятия проездом;

  • Определяется количество абонентов, находящихся в районе локации проведения мероприятия дома;

  • Определяется количество абонентов, находящихся в районе локации проведения мероприятия на работе;

  • Статистика дополняется информацией сервиса Яндекс.Карты;

  • Данные агрегируются по мероприятиям и временным интервалам;

Выходные данные:

  • Данные предоставляются в формате: Идентификатор мероприятия; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.

  1. Показатели посещаемости района в зависимости от времени суток

Входные данные:

  • Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);

  • API сервиса Яндекс.Карты;

  • Справочник территориального деления;

Алгоритм:

  • По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;

  • Определяется загруженность маршрутов следования для каждого района, как общее количество абонентов на маршруте в интервал времени;

  • Данные сопоставляются со справочником территориального деления;

  • Определяется количество абонентов, находящихся в районе проездом;

  • Определяется количество абонентов, находящихся в районе дома;

  • Определяется количество абонентов, находящихся в районе на работе;

  • Статистика дополняется информацией сервиса Яндекс.Карты;

  • Данные агрегируются по мероприятиям и временным интервалам;

Выходные данные:

  • Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.

  1. Количество посетителей из района, в котором находится культурное учреждение относительно общего количества жителей/работающего населения района

Входные данные:

  • Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);

  • API сервиса Яндекс.Карты;

  • Справочник территориального деления;

  • Справочник учреждений культуры;

Алгоритм:

  • По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;

  • Определяется загруженность маршрутов следования для каждого района, как общее количество абонентов на маршруте в интервал времени;

  • Данные сопоставляются со справочником территориального деления;

  • Определяется количество абонентов, находящихся в районе дома;

  • Определяется количество абонентов, находящихся в районе на работе;

  • Определяется количество посетителей учреждения культуры;

  • Статистика дополняется информацией сервиса Яндекс.Карты;

  • Данные агрегируются по мероприятиям и временным интервалам;

Выходные данные:

  • Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов дома; Количество абонентов на работе; Процентное соотношение по району.
  1. Оценка эффективности использования денежных субсидий, выделяемых ведомством учреждениям культуры


    1. Показатели динамики посещаемости культурных учреждений по месяцам

Входные данные:

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

  • Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;

Алгоритм:

  • Определение локации абонента в любой момент времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);

  • Сопоставление локаций абонента со справочником учреждений культуры;

  • Определение количества посещений учреждения культуры за месяц;

  • Составление динамики посещений;

Выходные данные:

  • Учреждение культуры;

  • Количество посетителей за месяц n;

  • Количество посетителей за месяц n-1;

  • ...;

  • Количество посетителей за месяц n-k.

  1. Парсинг отзывов из интернет-ресурсов об учреждениях культуры. Составление рейтингов в динамике

Входные данные:

  • Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

  • Список интернет-ресурсов;

  • Список учреждений культуры;

Алгоритм:

  • Парсинг интернет-ресурсов, поиск ключевых слов;

  • Создание обучающей выборки;

  • Проставление признаков в выборке;

  • Формирование обучающего словаря;

  • Обучение на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);

  • Для получения качественных результатов обучение производится итеративно;

  • Формирование сводного рейтинга;

Выходные данные:

  • Идентификатор учреждения;

  • Дата;

  • Ссылка на статью;

  • Статус;

  • Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное, позитивное).
  1. Отслеживание динамики общественно мнения в отношении деятельности Министерства и его руководства


    1. Парсинг отзывов о Министерстве и его руководстве из интернет-ресурсов (социальные сети, блоги, форумы)

Входные данные:

  • Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

  • Список интернет-ресурсов;

  • Список деятелей министерства;

Алгоритм:

  • Парсинг интернет-ресурсов, поиск ключевых слов;

  • Создание обучающей выборки;

  • Проставление признаков в выборке;

  • Формирование обучающего словаря;

  • Обучение на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);

  • Для получения качественных результатов обучение производится итеративно;

  • Формирование сводного рейтинга;

Выходные данные:

  • Деятель министерства;

  • Дата;

  • Ссылка на статью;

  • Статус;

  • Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное, позитивное).
  1. Количество публикаций в СМИ о деятельности каждого Департамента


    1. Создание алгоритма поиска сообщений на основании обучающей выборки

Входные данные:

  • Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

  • Список департаментов;

  • Алгоритм:

  • Парсинг интернет-ресурсов, поиск ключевых слов;

  • Создание обучающей выборки;

  • Подсчёт количества публикаций;

Выходные данные:

  • Идентификатор департамента;

  • Дата;

  • Количество публикаций.
  1. Образ Министерства


    1. Построение рейтинга отзывов по категориям (деятели культуры, журналисты, массовые потребители) на основании информации СМИ, социальных сетей, блогов, форумов

Входные данные:

  • Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

  • Список интернет-ресурсов;

  • Список деятелей Министерства;

Алгоритм:

  • Парсинг интернет-ресурсов, поиск ключевых слов;

  • Создание обучающей выборки;

  • Проставление признаков в выборке;

  • Формирование обучающего словаря;

  • Обучение на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);

  • Для получения качественных результатов обучение производится итеративно;

  • Классификация отзывов по группам пользователей;

  • Формирование сводного рейтинга;

Выходные данные:

  • Деятель министерства;

  • Дата;

  • Ссылка на статью;

  • Категория пользователей;

  • Статус;

  • Общий рейтинг, где в поле статус указывается отношение (негативное, нейтральное, позитивное), а в поле категория пользователей разделение по категориям (деятели культуры, журналисты, массовые потребители).
  1. Профиль потребителя услуг учреждений культуры


    1. Сегментация по возрастным категориям

Входные данные:

  • Детальные данные о транзакциях сотовых операторов;

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

  • Данные социальных сетей;

  • Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;

Алгоритм:

  • Обучение алгоритма для нахождения ключевых слов в тексте;

  • Классификация абонентов на группы по текстам сообщений;

  • Обогащение классификации данными из социальных сетей;

  • Определения количества транзакций абонентов, разделение на группы;

  • Определение количества и динамики перемещений;

  • Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;

Выходные данные:

  • Учреждение культуры;

  • Данные о возрасте посетителей в процентах.

  1. Сегментация по полу

Входные данные:

  • Детальные данные о транзакциях сотовых операторов;

  • Данные социальных сетей;

  • Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;

Алгоритм:

  • Обучение алгоритма для нахождения ключевых слов в тексте;

  • Классификация абонентов на группы по текстам сообщений;

  • Обогащение классификации данными из социальных сетей;

  • Соотношение показателей, полученных в предыдущих пунктах со справочником учреждений культуры;

Выходные данные:

  • Учреждение культуры;

  • Данные о поле посетителей в процентах.

  1. Сегментация по мобильности

Входные данные:

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

  • Справочник территориального деления;

Алгоритм:

  • Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);

  • Определяется для каждой локации территориального деления количество абонентов в интервал времени;

  • В соответствии с количеством изменений локаций абонента, определяется коэффициент мобильности;

  • Данные агрегируются по группам мобильности;

Выходные данные:

  • Идентификатор района;

  • Группа мобильности;

  • Количество человек.

  1. Сегментация по количеству посещений/динамике посещений учреждений культуры

Входные данные:

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

  • Справочник учреждений культуры (spape-файлы с граничными координатами) предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;

Алгоритм:

  • Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);

  • Определяется общее количество посещений абонентом локации учреждения культуры за заданный период;

  • Рассчитывается динамический показатель за длительный период по месяцам;

  • Данные агрегируются по учреждениям культуры;

Выходные данные:

  • Идентификатор учреждения культуры;

  • Количество посещений за текущий период;

  • Количество посещений в динамике.

  1. Сегментация по интересам (театр, музеи и т.д.)4 5

Входные данные:

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

  • Справочник учреждений культуры (spape-файлы с граничными координатами) с разделением на группы. Предоставляется заказчиком или составляется исполнителем по согласованию с заказчиком;

Алгоритм:

  • Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);

  • Для локаций абонентов находятся соответствия по справочнику учреждений культуры;

  • Данные группируются по учреждениям культуры;

Выходные данные:

  • Абонент;

  • Группа учреждений культуры;

  • Количество посещений.

  1. Сегментация по составу семьи/группам общения4 5

Входные данные:

  • Детальные данные о транзакциях абонентов сотовых операторов;

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Алгоритм:

  • Для каждого абонента выделяются группы телефонных номеров, с максимальным количеством транзакций;

  • Определяется локация абонентов в любой момент времени в соответствии с базовым алгоритмом для геоаналитических задач (см. подраздел 3.5.1.);

  • Определяется домашняя локация абонентов, как топовая за рассматриваемый период с 23.00 до 06.00;

  • Абоненты считаются принадлежащими одной семье, если они входят в группу общения и имеют одинаковую домашнюю локацию;

Выходные данные:

  • Абонент;

  • Группа общения;

  • Признак, где в поле группа общения записываются номера абонентов из группы общения, а в поле признак записывается является ли группа общения домашней или нет.

  1. Сегментация по способу передвижения6 7

Входные данные:

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

Алгоритм:

  • Для каждого абонента определяется локацию для заданного интервала времени по базовому алгоритму для геоаналитических задач (см. подраздел 3.5.1.);

  • Для локаций абонентов находятся соответствия по справочнику учреждений культуры;

  • Выделяются абоненты, транзакции которых отмечаются на базовых станциях, соответствующих метро;

  • Определяется скорость перемещения абонентов;

  • Выделяются маршруты следования абонентов;

  • Абоненты разделяются на группы: автомобилисты; пассажиры метро; передвигающиеся на маршрутном ТС; смешанный стиль;

  • Данные группируются по времени;

Выходные данные:

  • Абонент;

  • Временной период;

  • Группа учреждений культуры;

  • Способ передвижения.

  1. Сегментация по интернет-активности8 9

Входные данные:

  • Детальные данные о транзакциях абонентов сотовых операторов;

Алгоритм:

  • Определение количества интернет-трафика;

  • Определение количества посещённых ресурсов;

Выходные данные:

  • Абонент;

  • Количество интернет-трафика;

  • Количество посещённых ресурсов.

  1. Сегментация по активности в мобильной сети8 9

Входные данные:

  • Детальные данные о транзакциях абонентов сотовых операторов;

Алгоритм:

  • Для каждого абонента находится количество входящих/исходящих звонков;

  • Определяется продолжительность звонков;

  • Для каждого абонента находится количество входящих/исходящих sms/mms;

  • Определяется количество уникальных абонентов с которыми совершались транзакции;

  • Строится сводная таблица по показателям;

Выходные данные:

  • Абонент;

  • Количество входящих звонков;

  • Количество исходящих звонков;

  • Количество входящих сообщений;

  • Количество исходящих сообщений;

  • Количество уникальных связей.
  1. Пересечение аудитории (демографическое, географическое и т.п.)


    1. Анализ направления движения (треков) посетителей

Входные данные:

  • Данные алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.);

  • API сервиса Яндекс.Карты;

  • Справочник территориального деления;

Алгоритм:

  • По данным алгоритма "Базовый алгоритм для геоаналитических задач" (см. подраздел 3.5.1.) определяется маршруты следования абонентов;

  • Определяется загруженность маршрутов следования для каждого района, как общее количество абонентов на маршруте в интервал времени;

  • Данные сопоставляются со справочником территориального деления;

  • Определяется количество абонентов, находящихся в районе проездом;

  • Определяется количество абонентов, находящихся в районе дома;

  • Определяется количество абонентов, находящихся в районе на работе;

  • Статистика дополняется информацией сервиса Яндекс.Карты;

  • Данные агрегируются по мероприятиям и временным интервалам;

Выходные данные:

  • Данные предоставляются в формате: Идентификатор района; Временной интервал; Количество абонентов; Количество абонентов проездом; Количество абонентов дома; Количество абонентов на работе.

  1. Тепловая карта по количеству посетителей учреждений культуры в нескольких срезах (по количеству посещений за период, по времени посещения, по отзывам, по направлениям, по транспортной доступности)

Предпочтительным решением для реализации является SAP BI (SAP Business Objects). Финансовая оценка в таблице (см. Таблица 7) указана без стоимости лицензии на продукт.

Входные данные:

  • Базовый алгоритм для геоаналитических задач (см. подраздел 3.5.1.);

  • Отчёт 3.5.12.1. Анализ направления движения (треков) посетителей;

  • Отчёт 3.5.5.1. Транспортная доступность культурных учреждений;

  • Отчёт 3.5.7.2. Парсинг отзывов из интернет-ресурсов об учреждениях культуры. Составление рейтингов в динамике;

Алгоритм:

  • Построение тепловой карты по данным из отчётов.
  1. Воспрепятствование продвижению на киноэкраны произведений, содержание которых выходит за рамки ограничений, предусмотренных действующими федеральными законами


    1. Парсинг и обучение модели для сортировки фильмов по тексту сценария (разрешённых и запрещённых для массового показа)

Входные данные:

  • Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

  • Сценарии фильмов в текстовом формате;

Алгоритм:

  • Создание обучающей выборки;

  • Проставление признаков в выборке;

  • Формирование обучающего словаря;

  • Парсинг текста сценариев;

  • Обучение текстов сценариев на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);

  • Для получения качественных результатов обучение производится итеративно;

Выходные данные:

  • Название фильма;

  • Ключевые слова;

  • Вердикт, где в списке ключевых слов указаны все слова из сценария, влияющие на запрет для массового показа данного фильма, а в поле вердикт указано разрешён или запрещён фильм для показа по результатам обработки алгоритмом.




  1. Алгоритм автоматического определения возрастного ценза

Входные данные:

  • Базовый алгоритм для задач по машинному обучению (см. подраздел 3.5.2.);

  • Сценарии фильмов в текстовом формате;

Алгоритм:

  • Создание обучающей выборки;

  • Проставление признаков в выборке;

  • Формирование обучающего словаря;

  • Парсинг текста сценариев;

  • Обучение текстов сценариев на основании базового алгоритма для задач по машинному обучению (см. подраздел 3.5.2.);

  • Для получения качественных результатов обучение производится итеративно;

Выходные данные:

  • Название фильма;

  • Ключевые слова;

  • Возрастной ценз, где в списке ключевых слов указаны все слова из сценария, влияющие на запрет для массового показа данного фильма, а в поле возрастной ценз указан возраст аудитории, для которой разрешён просмотр данного фильма по результатам обработки алгоритмом.
1   2   3   4   5   6   7   8   9   10   11

Похожие:

Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Отчет о научно-исследовательской работе
Закрытое акционерное общество Лаборатория новых информационных технологий «ланит» (зао “ланит”)
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Отчет о научно-исследовательской работе «Разработка научно-методических...
Заключительный отчет по нир: «Разработка научно-методических основ формирования корпоративной культуры в системе мчс россии» (п....
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Отчет о научно-исследовательской работе по теме: «Стратегия социально-экономического...
Федеральное государственное бюджетное образовательное учреждение высшего образования
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Отчет о научно-исследовательской работе по исполнению Государственного контракта
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский национальный...
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Отчет о научно-исследовательской работе по исполнению Государственного контракта
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский национальный...
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Отчет о научно-исследовательской работе по теме: «Антикоррупционная...
«Антикоррупционная экспертиза проектов ведомственных нормативных правовых актов в сфере правоохранительной службы»
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Отчет о научно-исследовательской работе по теме : «Корректировка...
Объектом разработки является муниципальная система санитарной очистки территории и обращения с коммунальными отходами
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Пояснительная записка учебная практика направлена на формирование...
Целью учебная практика является ознакомление студентов с методами и средствами, используемыми при разработке и изучении информационных...
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon 2. Источники нормативного правового регулирования вопросов обработки персональных данных
Администрации Верхнедонского района Ростовской области (далее – Отдел), регулирующим вопросы обработки персональных данных
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Оао «Центр по проблемам информатизации сферы культуры» (оао «Центр пик»)
«Организационно-социальные проблемы развития и использования новейших информационных технологий в сфере культуры и образования и...
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Текстовой отчёт о работе Отдела культуры администрации Сосновского муниципального района
Отдела культуры администрации Сосновского муниципального района, является гарантированные Конституцией РФ права граждан в сфере культуры...
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Отчет по научно-исследовательской деятельности мгту за 2008 год
Кцп разработка компьютерных и информационных технологий в технических системах, экономике и науке
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Отчет по научно-исследовательской деятельности мгту за 2009 год
Кцп разработка компьютерных и информационных технологий в технических системах, экономике и науке
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Рабочая программа дисциплины дисциплина м в «Применение информационно-коммуникационных...
Целью изучения дисциплины является подготовка специалистов, способных решать вопросы применения информационно-коммуникационных технологий...
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon 1. теоретические основы применения новых информационных технологий в управлении 5
Основные тенденции и проблемы в области разработки и применения информационных технологий 7
Отчет о научно-исследовательской работе по теме: «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры» icon Отчет о научно-исследовательской работе gr в санкт-петербурге
Имидж специалистов по взаимодействию с органами публичной власти и проблема институализации профессии 15

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск