Обеспечение удобного использования открытых данных пользователями для широкого спектра целей, в том числе для повторного использования — КиберПедия 

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Обеспечение удобного использования открытых данных пользователями для широкого спектра целей, в том числе для повторного использования

2021-01-31 61
Обеспечение удобного использования открытых данных пользователями для широкого спектра целей, в том числе для повторного использования 0.00 из 5.00 0 оценок
Заказать работу

Удобство использования открытых данных – это комплексная характеристика, включающая:

- удобство поиска необходимых данных;

- наличие и удобство использования информации о данных, необходимой для организации их использования;

- удобство доступа к данным;

- удобство обработки данных.

Публикуемые данные должны иметь описания – паспорта, в которые целесообразно включать следующую информацию:

- идентификатор набора данных;

- наименование набора данных;

- описание набора данных;

- государственный орган-владелец набора данных;

- ответственное лицо, способы связи с ним;

- формат данных;

- структура (модель) данных;

- методы манипулирования данными;

- методы поддержки целостности данных;

- контрольная сумма и другие сведения для проверки целостности набора данных;

- дата первой публикации набора данных;

- дата последнего внесения изменений;

- периодичность актуализации набора данных (или запланированная дата актуализации);

- классификационные признаки набора данных и ключевые слова;

- условия использования.

Эти паспорта должны составлять основу реестра открытых данных. Они должны использоваться для поиска данных и для организации их использования. Для пользователей эта информация должна быть доступна как через программный интерфейс (для машинной обработки), так и в виде документов MS Word или PDF.

Сами реестры должны быть доступны пользователям. Целесообразно вести единый государственный реестр открытых данных Российской Федерации, в котором хранить информацию обо всех опубликованных наборах данных. Такая информация должна своевременно регистрироваться (а при необходимости уточняться для поддержания актуальности) государственными органами, публикующими наборы данных. Государственные органы при этом могут вести свои ведомственные реестры открытых данных, доступные пользователям. Пользователи должны иметь возможность получать данные как из государственного, так и из ведомственных реестров.

Удобство доступа к данным должно обеспечиваться удобными интерфейсами взаимодействия с пользователями и прикладными программами. Пользователи должны иметь возможность просматривать данные. Для этого им должны предоставляться необходимые инструменты. С целью унификации и сокращения количества инструментов работы с данными целесообразно ограничить количество форматов, в которых будут публиковаться государственные данные.

Для доступа программ к опубликованным данным должны быть предусмотрены интерфейсы прикладных программ (API), предоставляющие необходимые методы (программные методы) работы с наборами данных. Следует отметить, что методов для доступа к данным разных форматов может потребоваться много, что делает разработку программных интерфейсов трудоемкой (для многих наборов данных необходимо разрабатывать свои интерфейсы, свои методы). С целью унификации в этой области целесообразно использовать формат представления данных Resource Description Framework (RDF).

Удобство обработки данных должно обеспечиваться их публикацией в форматах, удобных для последующей машинной обработки. Здесь следует отметить, что удобство обработки данных – это не просто загрузка их в компьютер без участия человека. Основная область использования открытых данных – их повторное использование специально созданными для этого программными средствами, предоставляющими социально-полезные сервисы. При этом можно использовать данные из одного набора и получать полезный результат (например, рисовать графики изменения уровня преступности). Но куда больший эффект и разнообразие дает использование в программных приложениях данных из разных наборов. Тогда их можно сопоставлять, интегрировать и получать принципиально новый результат.

Исходя из таких посылок изобретатель Веба сэр Тим Бернес-Ли предложил для оценки степени открытия данных использовать 5-ти звездочную модель (шкалу) (об этой шкале упоминалось выше, но здесь будут уточнены некоторые важные детали). В ней степень открытости данных определяется удобством использования данных.

Если данные опубликованы в сети Интернет в свободном доступе, то им присваиваются как минимум первый уровень открытости (одна звезда), независимо от их формата, даже если это фотография или сканированное изображение.

Второму уровню открытости (две звезды) соответствуют данные, опубликованные в проприетарных машиночитаемых форматах, таких как Microsoft Excel. Для использования таких форматов пользователи должны приобрести (купить) специальное программное обеспечение, что ограничивает возможность использования данных, особенно если учесть, что разные данные могут публиковаться в разных форматах (Microsoft, Oracle, IBM и др.).

Третьему уровню открытости (три звезды) соответствуют данные, опубликованные в непроприетарных (открытых) машиночитаемых форматах, таких как CSV, XML. Для обработки таких данных может применяться свободно распространяемое программное обеспечение, что расширяет возможности по их использованию.

Для того чтобы данные соответствовали четвертому уровню (четыре звезды), они должны быть опубликованы в стандарте RDF. Этот стандарт предусматривает гибкую схему данных – в виде троек «субъект-предикат-объект», связанных в граф. Данные разных наборов, представленные в такой схеме, легко интегрировать. Для этого достаточно объединить одинаковые сущности (субъекты и объекты) из разных наборов. В случае представления данных в других форматах (особенно, если форматы разные), трудоемкость их интеграции становится значительной, а при большом количестве объединяемых наборов данных интеграция превращается в нерешаемую проблему. Так, для интеграции реляционных баз данных требуется формирование новой структуры интегрированной базы данных, сложность которой экспоненциально усложняется при увеличении количества объединяемых баз данных (кроме того, изменение структуры базы данных повлечет за собой необходимость модификации приложений, которые используют эту базу данных).

Само по себе использование модели RDF в качестве единого стандарта открытых данных принципиально упростит использование открытых данных, поскольку для обработки RDF-данных из разных наборов, в том числе интегрированных, можно будет использовать одни и те же технологии и программное обеспечение. Стандарт RDF в этом случае будет играть такую же важную роль в пространстве открытых данных, какую играет стандарт HTML в современном вебе документов – роль основного инструмента унификации (сейчас, благодаря использованию HTML в качестве стандарта представления информации в вебе, одним браузером можно просмотреть любой HTML-документ веба).

Учитывая, что повторное использование открытых данных во многих случаях предполагает объединение данных из разных наборов, использование стандарта RDF приобретает принципиальное значение. В дополнение к этому, стандарт RDF рассматривается международным сообществом в качестве базового для Семантического веба, для обработки не только человеком, но и машинами. Поэтому использование стандарта RDF для открытых данных обеспечит в перспективе их автоматическую интеграцию в Семантический веб.

Пятому уровню открытости соответствуют данные, представленные в формате RDF, причем данные разных опубликованных наборов должны быть связаны между собой (стандарт RDF способствует установлению таких связей). За счет установления связей между данными из разных наборов повышается ценность данных. Используя такие связи, пользователи (люди или машины) могут получить информацию об интересующем их объекте не только из того набора данных, к которому они обратились, но и из других наборов, данные которых связаны с данными об объекте.

Исходя из изложенного выше, целесообразно стремится к публикации данных в форматах, соответствующих 4 и 5 уровням пятизвездочной шкалы – это позволит достичь максимального эффекта при повторном использовании открытых данных. Однако перевод данных в RDF-формат – это трудоемкая работа, требующая специальных знаний. Поэтому публикацию данных целесообразно начинать в более привычных форматах, а потом постепенно конвертировать данные в форматы более высоких уровней, повышая тем самым ценность данных. Рекомендации по форматам и способам публикации данных приведены в п. 9.2.4.

Для публикации данных и обеспечения удобства их использования необходимо создать специальную технологическую инфраструктуру. Она должна включать ведомственные платформы для публикации данных и государственный портал открытых данных. Подробнее см. п. 9.2.5.

Ведомственные платформы публикации данных должны развиваться в соответствии с государственной технической политикой, формируемой федеральным органом, уполномоченным по вопросам открытых данных. При этом должны учитываться вопросы обеспечения удобного использования открытых данных пользователями для широкого спектра целей, в том числе для повторного использования. Федеральный уполномоченный орган должен осуществлять мониторинг развития ведомственных платформ, анализировать положительный и отрицательный опыт и распространять информацию о нем в виде стандартов и других регламентирующих документов.


Поделиться с друзьями:

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.009 с.