1.2Анализ опыта по общественным инициативам
1.2.1World Wide Web Consorcium (W3C)
Адрес в сети Интернет: http://www.w3.org/
Консорциум основан в 1994 г. W3C разрабатывает для сети Интернет единые принципы и стандарты (называемые «рекомендациями», англ. W3C Recommendations), которые затем внедряются производителями программ и оборудования. Таким образом достигается совместимость между программными продуктами и аппаратурой различных компаний, что делает Всемирную сеть более совершенной, универсальной и удобной.
Изобретатель Веба сэр Тим Бернес-Ли и действующий глава W3C предложил для оценки степени открытия данных использовать 5-ти звездочную модель (шкалу). В ней степень открытости данных определяется удобством использования данных.
Если данные опубликованы в сети Интернет в свободном доступе, то им присваиваются как минимум первый уровень открытости (одна звезда), независимо от их формата, даже если это фотография или сканированное изображение.
Второму уровню открытости (две звезды) соответствуют данные, опубликованные в проприетарных машиночитаемых форматах, таких как Microsoft Excel. Для использования таких форматов пользователи должны приобрести (купить) специальное программное обеспечение, что ограничивает возможность использования данных, особенно если учесть, что разные данные могут публиковаться в разных форматах (Microsoft, Oracle, IBM и др.).
Третьему уровню открытости (три звезды) соответствуют данные, опубликованные в непроприетарных (открытых) машиночитаемых форматах, таких как CSV, XML. Для обработки таких данных может применяться свободно распространяемое программное обеспечение, что расширяет возможности по их использованию.
Для того чтобы данные соответствовали четвертому уровню (четыре звезды), они должны быть опубликованы в стандарте RDF. Этот стандарт предусматривает гибкую схему данных – в виде троек «субъект-предикат-объект», связанных в граф. Данные разных наборов, представленные в такой схеме, легко интегрировать. Для этого достаточно объединить одинаковые сущности (субъекты и объекты) из разных наборов .В случае представления данных в других форматах (особенно, если форматы разные), трудоемкость их интеграции становится значительной, а при большом количестве объединяемых наборов данных интеграция превращается в нерешаемую проблему. Так, для интеграции реляционных баз данных требуется формирование новой структуры интегрированной базы данных, сложность которой экспоненциально усложняется при увеличении количества объединяемых баз данных (кроме того, изменение структуры базы данных повлечет за собой необходимость модификации приложений, которые используют эту базу данных).
Само по себе использование модели RDF в качестве единого стандарта открытых данных принципиально упростит использование открытых данных, поскольку для обработки RDF-данных из разных наборов, в том числе интегрированных, можно будет использовать одни и те же технологии и программное обеспечение. Стандарт RDF в этом случае будет играть такую же важную роль в пространстве открытых данных, какую играет стандарт HTML в современном вебе документов – роль основного инструмента унификации (сейчас, благодаря использованию HTML в качестве стандарта представления информации в вебе, одним браузером можно просмотреть любой HTML-документ веба).
Учитывая, что повторное использование открытых данных во многих случаях предполагает объединение данных из разных наборов, использование стандарта RDF приобретает принципиальное значение. В дополнение к этому, стандарт RDF рассматривается международным сообществом в качестве базового для Семантического веба – веба данных, которые могут обрабатываться не только человеком, но и машинами. Поэтому использование стандарта RDF для открытых данных обеспечит в перспективе их автоматическую интеграцию в Семантический веб.
Пятому уровню открытости соответствуют данные, представленные в формате RDF, причем данные разных опубликованных наборов должны быть связаны между собой (стандарт RDF способствует установлению таких связей). За счет установления связей между данными из разных наборов повышается ценность данных. Используя такие связи, пользователи (люди или машины) могут получить информацию об интересующем их объекте не только из того набора данных, к которому они обратились, но и из других наборов, данные которых связаны с данными об объекте.
1.2.2Open Knowledge Foundation
Адрес в сети Интернет: http://okfn.org/
Open Knowledge Foundation – некоммерческая организация, основанная 24 мая 2004 г. в Кембридже, Великобритания. Одним из наиболее значимых проектов организации явилось создание CKAN (http://ckan.org/), открытой системы управления данными. В настоящее время эта система установлена на 40 порталах мире, включая местные и государственные сайты открытых данных.
В Руководстве по открытым данным, (опубликовано по адресу: http://assets.okfn.org/tmp/opendatamanual/appendix/file-formats.html) специалистами Open Knowledge Foundation даются следующие краткие пояснения и рекомендации по форматам файлов открываемых данных:
JSON. Файлы JSON легко читаемы программами, написанными на большинстве языков программирования. Как правило, файлы JSON легче для обработки, чем файлы XML.
XML является широко используемым форматом для обмена данными, поскольку дает хорошую возможность сохранить структуру данных при написании документации разработчиками.
RDF используется британским правительством в проекте Linked Open Data. RDF предлагает отличные возможности для автоматической обработки данных.
Таблицы – информация во многих государственных органах сохраняется с помощью табличных процессоров, например, MS Excel. Эти данные можно сразу использовать, если в столбцах содержится правильное описание. Однако макросы и формулы, содержащиеся во многих таблицах MS Excel оказываются громоздкими для программной обработки. Рекомендуется размещать вместе с таблицами документацию по расчётам, в них содержащимся.
CSV - очень полезный формат, поскольку компактен и, поэтому, подходит для передачи больших объемов данных с одинаковой структурой. Тем не менее, данные в этом формате зачастую бесполезны без дополнительных документов, точно определяющих, что содержится в различных столбцах. Кроме того, одна ошибка в поле может помешать чтению всех остальных данных в файле без каких-либо реальных возможностей, чтобы исправить это.
Документы, содержащие текст - классические документы в форматах, таких как Word, ODF, OOXML. Этих форматов может быть достаточно, чтобы, например хранить в них данные с относительно стабильными списками рассылки. Однако, проблемой является автоматизированный ввод данных в документы без изменения структуры документа. При машинной обработке, сложно отличить заголовки любого типа от содержания.
Текстовые документы (. TXT) очень легки для чтения компьютерами, но они не поддерживают метаданные. Некоторые проблемы могут быть вызваны работой в разных операционных системах. Например, MS Windows, Mac OS X и варианты Unix имеют свой собственный способ указания достижения конца строки.
Отсканированные изображения - наименее подходящей формой для большинства данных, однако, картинка лучше, чем ничего, если речь идёт о старых церковных записях и других архивных материалах.
HTML - многие данные доступны только в формате HTML на различных сайтах. Иногда вполне достаточно сослаться на страницу сайта, и это может быть хорошей отправной точкой для отображения данных. Yahoo разработала инструмент ( http://developer.yahoo.com/yql/ ), с помощью которого можно извлечь структурированную информацию из веб-сайта.
1.2.3Sunlight Foundation
Адрес в сети Интернет: http://sunlightfoundation.com/
Sunlight Foundation – некоммерческая образовательная организация, основанная в апреле 2006 г. с целью увеличения открытости, прозрачности и подотчётности государственных органов США. Основной целью Sunlight Foundation является улучшение доступа к правительственной информации США, что, по словам создателей этой организации, подразумевает лёгкость поиска, сортировки, а также машиночитаемость правительственных данных.
В октябре 2007 года 30 членов рабочей группы по открытости правительственных данных собрались в Севастополе, Калифорния, чтобы обсудить, каким образом правительство может открыть электронно-хранящиеся данные для общественного использования. По результатам встречи было сформулировано 8 фундаментальных принципов открытия государственных данных (http://www.opengovdata.org/home/8principles).
Sunlight Foundation переработала и расширила эти 8 принципов. 11 августа 2010 Sunlight Foundation опубликовала Принципы открытости правительственной информации:
Полнота данных.
Наборы данных, обнародованных правительством, должны быть как можно более полными. Вся информация из набора данных должна быть открыта для общественности, за исключением случаев, когда необходимо соблюдать положения федерального закона об идентификации персональной информации. Для максимально возможного уровня детализации должны быть доступны метаданные, наряду с формулами и объяснениями о том, как полученные данные были рассчитаны.
Первенство.
Наборы данных, обнародованные правительством, должны быть первичным источником данных. Необходимо публиковать подробности о том, как эти данные были собраны и подлинные документы записи сбора данных. Широкое распространение позволит пользователям убедиться, что информация была собрана правильно и точно.
Своевременность.
Наборы данных, размещённые правительством, должны быть доступны для общественности своевременно. Приоритет следует отдавать данным, полезность которых чувствительна ко времени обнародования.
Простота физического и электронного доступа к данным.
Наборы данных, обнародованных правительством, должны быть как можно более доступными. Доступность определяется как легкость, с которой информация может быть получена, либо от физических лиц, либо посредством электронного доступа. Барьеры на пути физического доступа включают требования посетить определенный офис и ответственное лицо или требования по соблюдению конкретных процедур (таких, как заполнение форм). Барьеры для автоматизированного электронного доступа возникают, когда данные делают доступными только через браузер-ориентированные технологии (например, Flash, Javascript или Java-апплеты). В отличие от этого, рекомендуется предоставлять API, чтобы пользователь мог загрузить всю информацию из базы данных сразу ("bulk" доступ).
Машиночитаемость
Сканирование текста с помощью оптического распознавания символов (OCR) приводит к множеству ошибок. Широко используемый формат PDF, например, очень труден для машины. Таким образом, информация должна храниться в форматах файлов, легко поддающимся механической обработке. Эти файлы должны сопровождаться документацией, подробно описывающей формат данных.
Отсутствие дискриминации
Барьеры на пути использования данных могут включать в себя регистрацию или требования членства. Еще одним препятствием является ситуация, когда только некоторые приложения могут получить доступ к данным. В самом широком смысле, недискриминационный доступ означает, что любое лицо может получить доступ к данным в любое время не предоставляя никаких оснований для этого.
Использование открытых стандартов
Иногда программа, использующая правительственные данные, доступна для общественности, но за отдельную плату. Например, популярнейший Microsoft Excel. Рекомендуется размещать данные в открытых альтернативных форматах, что сделает данные доступными для более широкого круга потенциальных пользователей.
Лицензирование
Введение условий предоставления данных, требований, ограничений на распространение и так далее выступает в качестве препятствия для общественного использования данных. Правительственные данные (как часть общественного достояния) должны быть доступны без каких-либо ограничений.
Постоянство
Данные, размещённые на правительственном сайте, не должны быть доступны ограниченное время. Информация должна постоянно архивироваться. Часто, информация обновляется, изменяется или удаляется без каких-либо признаков того, что изменения были сделаны. Должны фиксироваться и храниться все версии размещённых данных.
|