|
Рекомендации по обмену данными при решении задач интеграции ГИС
Старостенко Д.А.
От автора.
Эти рекомендации были написаны в 1999-2000 гг. и использовались
затем при подготовке научных отчетов ВНИИЦлесресурс.
Когда возникает проблема обмена цифровыми картографическими данными
между конкретными ГИС-проектами, реализованными в рамках конкретных инструментальных
ГИС, прежде чем приступить к ее практическому решению, необходимо проанализировать
следующие обстоятельства:
-
Какой набор совместимых форматов обмена для картографических (векторных)
и для атрибутивных данных поддерживают как ГИС - источник данных, так и
целевая ГИС - интегратор данных.
-
Какие картографические проекции и системы координат используют в проектах
целевая ГИС и ГИС - источники данных. Какие используются единицы для измерения
координат. Какие дополнительные преобразования координат потребуются в
процессе экспорта - импорта данных и в процессе последующей обработки картографических
данных в целевой ГИС.
-
Насколько различаются модели представления пространственных (векторных)
данных и их послойная структура в целевой ГИС и источниках данных и сможет
ли целевая ГИС полноценно принять поставляемые данных. В противном случае
при экспорте данных из ГИС - источника может потребоваться их дополнительное
разложение на несколько наборов векторных данных с более простой пространственной
организацией.
-
Насколько различаются классификаторы, используемые при атрибутивном описании
объектов карты. В какие трудозатраты выливается процедура перекодировки
атрибутивных описаний объектов. Требуются ли какие-либо операции по перекодировке
текстов описаний объектов карты, подписей названий, а также поставляемых
вместе с картой (связанных) баз данных.
-
Насколько совместимы (в содержательном аспекте) библиотеки картографических
условных знаков, используемые при оформлении карт. Требуется ли дополнить
библиотеки целевой системы на недостающие знаки и насколько возможно использовать
библиотеки из систем - источников данных (например, специальные наборы
условных знаков в формате шрифтов TrueType).
-
Требуется ли передавать в составе ГИС-проекта растровые данные (аэрофотоплан,
карты в растровых форматах), какие совместимые форматы растровых данных
поддерживают ГИС - источники данных и целевая ГИС и как осуществляется
привязка в этих ГИС растровых данных к системе координат проекта. Какие
усилия могут потребоваться для "перепривязки" растровых данных.
-
Необходимо оценить также опасность потери точности картографических данных
в процессе передачи, а также потенциальные опасности и допустимость потерь
семантики данных источников при помещении их в целевую систему. В ряде
случаев при значительном различии базовых масштабов ГИС-проектов источников
и приемника потребуется сознательная генерализация (редукция) данных источников
при помещении их в целевую ГИС.
Совместимые форматы обмена картографическими данными
Первая задача, - приведение к внутреннему формату целевой ГИС, может не
представлять большой проблемы, если используются согласованные правила
обмена, совместимые обменные форматы и модели описания карт. Причем обменные
форматы должны совпадать не только по названию (Generate, DXF, ...), но
и по схеме их использования. Реальный обмен векторными данными между различными
ГИС на сегодня осуществляется на основе документированных форматов наиболее
распространенных в мире ГИС / GIS и САПР / CAD (системы автоматизированного
проектирования / computer applicated disign), которые поддерживаются и
большинством других систем. Здесь мы выделим четыре наиболее распространенных
формата межсистемного обмена:
-
Форматы фирмы ESRI, разработанные для своих систем: формат Generate / Ungenerate
(по имени команд, с ним работающих) системы ARC/INFO и Shape Files системы
ArcView.
-
Формат MIF / MID, разработанный MapInfo, Inc. для своих ГИС.
-
Формат DXF , разработанный для передачи данных САПР / CAD систем фирмой
AutoDesk.
Формат DXF поддерживается большинством систем, причем для систем
САПР / CAD этот формат является наиболее распространенным. В ГИС он предназначен
для передачи преимущественно графической компоненты - описания карты. Формат
имеет много версий, довольно обширные спецификации и предназначен для передачи
трехмерных описаний объектов САПР / CAD. Количество доступных пользователю
настроек при экспорте / импорте данных в разных программах колеблется от
"почти ничего" и до целых панелей переключателей. Существуют текстовый
и двоичный варианты этого формата. Недостатки этого формата:
-
Обширные спецификации с очень большим количеством необязательных описаний
приводят к тому, что одни и те же картографические данные могут быть оформлены
в виде файлов разного содержания, в результате чего данные, подготовленные
в одной системе (источнике), могут быть неправильно истолкованы в другой
(приемнике). Бывают случаи, когда одна система - приемник считает файл
DXF неправильным и отказывается его импортировать, а другая - успешно импортирует.
-
В одних системах возможности управления интерпретацией данных формата DXF
крайне малы, в других же настолько велики, что неопытный пользователь не
в состоянии разобраться в них, чтобы правильно задать параметры экспорта.
В результате при экспорте данных в целевую систему Вы можете получить совсем
не ту цифровую модель карты, которую ожидаете.
-
Формат не предусматривает передачи связанных с графикой атрибутивных данных
объектов карты в виде внешних файлов, а использование для этих целей предусмотренных
форматом описаний к объектам слишком сложно, и очень редко используется
на практике, в том числе и из-за неоднозначности толкования.
-
При текстовом варианте формата файлы карт получаются очень большими из-за
большого объема служебной информации, что неудобно при транспортировке
данных. Двоичный вариант формата не поддерживается многими системами.
Формат MIF-MID является собственным форматом экспорта системы MapInfo
и поддерживается большинством систем в режиме экспорта, реже - в режиме
импорта. Это связано с тем, что система MapInfo классифицируется в мире
в качестве ГИС конечного пользователя и не предназначена непосредственно
для создания картографических БД "на экспортФ. Сам формат обмена состоит
из двух текстовых файлов, - файл MIF содержит координатное описание объектов
карты, а файл MID - описание связанных с объектами карты атрибутивных данных,
записываемое построчно в виде прямоугольной таблицы. Соответствие между
данными двух файлов строится на основе порядковых номеров объектов карты
и строк таблицы данных.
При своей относительной простоте, что является преимуществом формата
MIF-MID, формат все же существенно ориентирован на внутреннюю модель описания
данных карты системы MapInfo, что ограничивает область его применения.
Имеется несколько версий формата MIF-MID, различающихся в основном объемом
сопровождающих векторную графику описательных данных.
И, наконец, форматы фирмы ESRI. Формат ARC/INFO Generate / Ungenerate
является наиболее простым по структуре форматом и основан на сочетании
текстовых файлов с координатами объектов и необязательных файлов атрибутивных
данных в формате DBF. Связь между ними осуществляется на основе произвольно
формируемых общих идентификаторов ID (ключей). Передача координатной компоненты
данных предусматривает возможность экспорта полигонов в виде замкнутых
контуров или в виде отдельных фрагментов их границ. Практически, жесткая
спецификация формата определяет "транспортный" уровень обмена данными,
предполагая, что семантические и топологические правила построения картографической
БД на основе передаваемых данных определяются субъектами информационного
обмена, то есть, являются предметом отдельного соглашения между сторонами
обмена.
Формат ArcView Shape Files появился позже остальных и передает
данные в двоичном формате. Он создавался как формат обмена между системами
ARC/INFO и ArcView. По модели описания картографических объектов он чем-то
напоминает формат MIF-MID. В последнее время этот формат стал часто использоваться
при передаче координатной компоненты данных ГИС и поддерживается большинством
систем.
Картографические проекции и системы координат
Лесные карты выполняются чаще всего на основе крупно- и среднемасштабных
топографических карт, которые у нас имеют проекцию Гаусса-Крюгера. Описание
этой проекции легко найти в специальной литературе. К сожалению, кроме
нормальной проекции Гаусса-Крюгера - 1942 года, существует искаженный вариант
этой проекции - 1963 года, параметры искажения которого закрыты. Хотя новые
карты в этой искаженной проекции сейчас уже не выпускаются, для крупномасштабных
карт в отраслевых архивах картматериалов эта проекция встречается очень
часто. Для хорошего специалиста при современных программных средствах приведение
проекции 1963 года к проекции 1942 года не является непреодолимым препятствием,
но в определенной мере усложняет и удорожает технологию работы над проектами.
В настоящее время разработана и начинает внедряться новая система координат
для топографических карт - СК-95. В ближайшие годы картографическое производство
перейдет на выпуск карт в этой новой проекции.
Существующие на сегодня инструктивные материалы требуют выполнения картографической
части лесоустроительных проектов на основе топографических карт, но в условной
системе координат. Это требование также лишь усложняет процедуру сборки
картографических баз данных при переходе к более высокому уровню интеграции
данных, приводит к дополнительным затратам на сведение данных в единую
систему координат. По нашему мнению, использование этого приема, как элемента
защиты данных, крайне неэффективно, и никак не окупает дополнительных затрат
на преодоление искусственных барьеров легальными пользователями информации.
При выполнении большого ГИС - проекта масштаба крупного лесхоза или
региона при существующих требованиях для уменьшения затрат на сведение
данных в единую систему координат рекомендуется использовать следующие
подходы:
-
выполнять ГИС-проект в единой системе координат для всего проекта, переходя
к условным координатам только перед передачей картографических данных заказчику;
-
при необходимости выполнении частей ГИС - проекта в условных системах координат
использовать для всего проекта единый осевой меридиан, что при известных
авторам проекта сдвигах позволит минимизировать затраты на сведение картографических
данных в единую систему.
Единственное, что совершенно недопустимо, это выполнения ГИС - проектов
без привязки к топографической основе, то есть по принципу "планшет к планшетуФ.
Это приводит к существенным искажениям ситуации, накоплению ошибок привязки
и получению в конечном итоге некондиционного и "не собираемого" в проект
более высокого уровня картматериала.
Модели представления пространственных данных
Практически все ГИС оперируют объектами четырех основных классов:
-
точечными, то есть не выражаемыми значимым по размеру объектом в
масштабе картографической БД;
-
линейными, которые в масштабе картографической БД могут быть выражены
только своей протяженностью, но не шириной;
-
полигональными (площадными), имеющими выраженную в масштабе
картографической БД площадь;
-
текстами подписей на карте (аннотациями).
Практически все ГИС позволяют представлять картографическую БД в виде набора
тематических слоев. Разбивка на слои в разных ГИС может быть реализована
по-разному. В некоторых системах число слоев ограничено 64 (Microstation)
или 256 (MapInfo), в других - явных ограничений нет. Каждый из слоев может
в различных ГИС иметь разное информационное наполнение. В одних системах
все объекты слоя имеют строго одинаковые графические атрибуты (цвет, вид
линии и т.п.), количество слоев в таких системах, соответственно, велико.
В других ГИС прорисовка объектов слоя может быть реализована на основе
сложных алгоритмов управления визуальными параметрами с использованием
кодификаторов или вычислений над данными связанных (внешних) БД, - здесь
количество слоев существенно уменьшается. В различных ГИС слои различаются
также и тем, каких классов объекты слой может одновременно содержать. Есть
системы, где слои содержат объекты только одного из упомянутых выше классов
(например, только точки или только полигоны), в других - одновременно всех
четырех. Влияет на выбор оптимального для ГИС - проекта числа слоев и реализация
функции включения / выключения визуализации данных слоев в конкретной ГИС.
Все факторы послойной организации данных приходится учитывать при обмене
картографическими БД между различными ГИС, причем необходимо не только
правильно импортировать данные в целевую ГИС, но и правильно экспортировать
исходные данные, чтобы не потерять при пересылке часть информации исходной
картографической БД.
Теперь о модели данных внутри слоя. Наиболее существенные различия между
моделями описания слоя карты в различных ГИС наблюдаются для полигональных
(площадных) объектов. В одних системах полигоны хранятся в виде набора
координат, полностью описывающих замкнутую фигуру полигона, в других -
в виде "виртуальных полигоновФ, когда объект-полигон сам не содержит практически
никакого координатного описания своих границ, но лишь ссылки на линейные
объекты, составляющие его границы, а линейные границы, в свою очередь,
имеют ссылки на полигоны, которые они разделяют. Соответственно, сами линейные
объекты - границы, имеют протяженность лишь от одной узловой точки, где
они пересекаются с другими линиями, и до другой такой же узловой точки.
Каждая из моделей данных имеет свои преимущества и недостатки. Так,
модель с полигоном в виде замкнутой фигуры в целом проще, пока в полигоне
не появляются "островаФ. Правильный учет вложенности "островов" при вычислениях
площадей и других аналитических операциях требует дополнительного внимания
к описанию карты в системе с такой моделью. Еще больше внимания может потребовать
ситуация "остров в островеФ. Другая проблема - дублирование в картографической
БД границ смежных полигонов, - может вызвать проблемы при редактировании
данных. При ошибках редактирования потенциально возможна ситуация появления
"зазоров" между соседними полигонами, либо "наползания" полигонов друг
на друга. В таких случаях в слое нарушается баланс площадей. И, наконец,
проблема условных знаков для изображения объектов. На практике граница
полигона, например, выдела, может проходить частично по квартальной просеке,
частично по мелиоративной канаве, частично быть обычной границей между
выделами. При хранении границы полигона в виде замкнутой фигуры эта граница
может, как правило, иметь лишь один условный знак. Чтобы решить эту проблему,
часть, а иногда и все границы полигонов имеют "дублеров" в виде линейных
объектов с соответствующими условными знаками (фактически, это уже третий
набор координат, два первых - границы смежных полигонов). На ГИС и авторов
проекта ложится забота о взаимном соответствии всех этих координатных описаний.
У модели описания карты с "виртуальными полигонами" свои проблемы. Первая
- сложность аналитического механизма работы с полигонами внутри самой программы
ГИС, необходимость выполнения специальной операции создания полигонов,
в том числе после импорта данных из других систем. Некоторые ГИС "не любятФ
определенных ситуаций, которые могут возникнуть при создании слоя. Например,
ARC/INFO считает ошибкой ситуацию, когда внутри контура полигона находится
другой полигон, касающийся внешнего строго в одной точке. Правда, к чести
большинства систем с такой моделью данных, в арсенале их инструментария
имеются средства автоматического поиска проблем в модели данных и, частично,
автоматического их устранения.
В ГИС с моделью описания карты с "виртуальными полигонами" нет особых
проблем с "островамиФ, баланс площадей поддерживается автоматически, границы
не дублируются и каждая может изображаться своим условным знаком. Но все
же, специфические проблемы существуют. Одна из них - "дробление" линейного
объекта со сложным условным знаком во всех узловых точках примыкающих границ
полигонов. Например, если лесничество выходит на границу городских земель
(а условный знак городских земель относится к разряду графически сложных),
то при изображении этой границы система у каждой узловой точки примыкания
границ выделов будет начинать изображать условный знак "с началаФ, то есть
в каждой узловой точке условный знак может зрительно "ломатьсяФ. Другая
близкая, по сути, проблема возникает с условными знаками с явно выраженной
направленностью (например, кромка оврага - зубцы строго "к низуФ). В результате
"дробления" отдельные фрагменты линии могут оказаться направленными "встречноФ,
то есть, возможна неправильная ориентация линейного условного знака. Восстанавливать
правильную ориентацию приходится вручную. Все подобные проблемы решаются
путем создания недробленых объектов - "дублеровФ, обычно во вспомогательном
слое. Именно они изображаются при визуализации карты. В некоторых ГИС (например,
ArcInfo Professional) имеется механизм для создания "виртуальных дублеровФ,
ссылающихся на цепочки связанных линейных объектов слоя или их фрагменты.
В некоторых ГИС с моделью описания карты с "виртуальными полигонамиФ
проблему могут создавать линейные объекты слоя, не являющиеся по смыслу
границами каких-либо полигонов. Это могут быть истоки ручьев в середине
выдела, либо лесные дороги, фактически прорезающие выдел, но не являющиеся
границей. Если модель карты не позволяет иметь в слое полигонов линии,
не являющиеся границами, их приходится выносить в отдельный вспомогательный
слой.
Классификаторы, используемые при атрибутивном описании объектов карты
При обмене связанными с объектами карты атрибутивными данными проблема
формата записи этих данных не стоит столь остро, как для координатной компоненты,
существуют широко поддерживаемые в различных системах форматы DBF (формат
баз данных), CSV (разделяемые запятыми значения в текстовом формате), "Tab
delimited" (то же, только разделитель - знак табуляции). Но все же проблемы
обмена атрибутивными описаниями существуют.
Первая из них - это способ связи картографических и атрибутивных данных
и как его реализует используемый обменный формат. Для некоторых форматов
и их интерпретации в различных геоинформационных системах передача ссылок
на атрибутивные описания становится проблемой (пример - формат DXF).
Вторая проблема - совместимость используемых в исходной и целевой системах
методов кодирования данных и структур классификаторов (кодификаторов),
поддерживающих процедуру обмена. При этом классификаторы не должны являться
самоцелью, как это часто происходит, они должны регламентировать только
методы описания ключевых для работы системы данных. Их задача - упростить
и стандартизовать процедуры работы с данными, в том числе процедуру обмена
ими. При этом внутренние классификаторы, используемые в конкретной ГИС,
в силу внутренних правил и ограничений этих систем будут, вероятно, отличаться
от специально созданных для межсистемного обмена и стандартизованных в
рамках отрасли.
Обменные классификаторы должны создаваться, либо, как минимум, быть
одобрены получателем (интегратором) информации. В этом случае
задача перекодирования данных при их передаче будет, как правило, ложится
на систему - источник данных. Чтобы сократить затраты на перекодирование
и свести его к формальным компьютерным операциям, необходимо выработать
рекомендации по структуре и методам кодирования данных ГИС, что само по
себе является сложной и объемной задачей, тесно связанной со структурой
и набором решаемых в целевой системе задач. Создание "абстрактныхФ
классификаторов не может дать жизнеспособного результата.
Третья проблема - структуры данных атрибутивных описаний и форматы полей
БД. Что касается полей БД, то несоответствие их форматов (например, числа
могут быть записаны в числовом формате или в виде текста) - преодолимо.
Что касается данных связанных с объектами карты атрибутивных описаний,
отвечающих за способ изображения объектов карты, то здесь возможны труднопреодолимые
препятствия. Например, параметры, задающие цвета и вид картографических
условных знаком, в различных ГИС различаются настолько, что становится
бессмысленной попытка их непосредственной передачи через обменный формат.
Наиболее надежное и гибкое решение - установление двухшаговой схемы
управления изображением объектов карты:
"объект карты" а "код класса объекта" а "картографический условный
знакФ.
Такая схема позволяет кодировать (классифицировать) не условные знаки,
которыми изображаются объекты карты, а содержательно кодировать сами
эти объекты. При этом в ряде случаев кодирование может даже
быть избыточным, с "запасом" на перспективное развитие. Это означает, что
для каких-то карт нескольким кодам из расширенного набора будут соответствовать
одинаковые условные знаки, но могут быть созданы и карты, где каждому коду
будет соответствовать свой условный знак, либо эта дополнительная заключенная
в кодах информация может быть использована при аналитических операциях
с картой.
Передача атрибутивных описаний объектов в виде кодов в рамках согласованных
кодификаторов с последующим автоматическим преобразованием их в целевой
системе в атрибуты объектов карты является наиболее перспективным подходом
к решению задачи обмена атрибутивными описаниями при передаче картографических
БД.
Библиотеки картографических условных знаков
Практически все ГИС имеют средства, позволяющие расширять стандартную библиотеку
условных знаков для точечных, линейных и площадных объектов специальными
знаками тематических карт. Важно, чтобы включенные в ГИС средства создания
условных знаков позволяли реализовать весь набор принятых в отрасли условных
знаков с приемлемым качеством. Набор условных знаков обычно создается для
каждого ГИС-проекта единожды и затем используется для всех карт. При необходимости
этот набор может расширяться.
Способы описания вида картографических условных знаков в различных ГИС
практически почти не совместимы и передача их из системы в систему не предусмотрена.
Однако при импорте новых данных в ГИС-проект и соответствующей перекодировке
их атрибутивных описаний для их визуализации используются условные знаки
ГИС-проекта целевой системы. То есть задача сводится к обеспечению корректной
передачи атрибутивных описаний (см. выше) и, возможно, некоторому расширению
библиотек условных знаков целевой системы.
Растровые данные ГИС.
Форматы растровых файлов на сегодня стандартизованы существенно лучше,
чем форматы для передачи векторных данных, но проблемы все равно могут
возникнуть. Форматов существует много, но каждая система поддерживает,
как правило, лишь определенный набор. Кроме того, многие форматы позволяют
по-разному организовывать данные, применять алгоритмы сжатия и т.п. Поэтому
при передаче растровых файлов нужно не только выбрать формат этих файлов,
но и правильно определить все параметры внутренней организации данных в
файле. К примеру, очень распространенный в ГИС и издательских системах
формат TIFF имеет сложные спецификации, определяющие его внутреннюю организацию,
и может поддерживать как клеточную организацию представления растра (Tiling)
для более быстрой прорисовки при сильном увеличении, так и различные алгоритмы
сжатия данных. Не все программы ГИС и графические редакторы поддерживают
все эти спецификации полностью.
Файлы растровых изображений отличаются значительными объемами хранения
данных, что тоже может вызывать проблемы при их передаче и использовании.
Для сокращения объемов занимаемой растрами дисковой памяти следует использовать
минимально - необходимое разрешение сканирования, по возможности, сокращать
глубину воспроизведения цвета (число возможных цветов), а также использовать
сжатые форматы файлов.
И все же при обмене растровыми данными в ГИС существует одна специфичная
для этой отрасли проблема - необходимость передачи вместе с растрами информации
об их привязке к векторной системе координат картографической БД. Стандартизованных
приемов для передачи таких данных нет. Обычно вместе с растровыми файлами
передаются координаты описывающих их прямоугольников. Этой информации для
привязки, как правило, достаточно, однако, параметры привязки в этом случае
приходится устанавливать вручную. Одно из перспективных решений этой проблемы
- использование файлов привязки растров в формате систем ArcInfo - ArcView.
Это текстовый файл простой и понятной структуры, дописываемый к растровому
файлу стандартного формата (TIFF, BMP). Такой формат привязки "понимаетФ
и может автоматически использовать уже ряд ГИС, в том числе и TopoL.
Точность картографических данных. Генерализация
. Генерализация - это обобщение картографической нагрузки при переходе
к более мелкому масштабу. Но в ГИС масштаб определяется иначе и вообще
является величиной переменной - визуализация данных ГИС возможна в различных
масштабах. Однако существует понятие базового масштаба ГИС - масштаба эквивалентной
по точности и нагрузке традиционной бумажной карты, которой соответствует
картографическая база данных ГИС. При изменении базового масштаба картографической
базы данных выполняется ее генерализация, включающая два этапа - на первом
шаге выполняется объединение полигональных объектов карты в объекты более
высокого уровня (выделов в кварталы и т.д.), объединение соответствующих
их границам линейных объектов, а также устранение малозначимых самостоятельных
объектов линейной и точечной локализации. На следующем шаге выполняется
операция устранения избыточных точек в границах полигональных и в линейных
объектах, которые в большинстве современных ГИС представлены ломаными полилиниями.
Главная цель второго шага - повышение быстродействия системы, - скорости
прорисовки векторных данных в процессе перемещения по электронной карте,
и выполнения аналитических операций с картографическими данными.
Однако генерализация не приводит к автоматическому снижению точности
картографических данных. Например, определенные с высокой степенью точности
координаты объектов карты будут сохранять в ГИС свою точность и в более
мелком масштабе. В других случаях сохранение высокой точности является
обязательным параметром обмена данными ГИС. Наиболее вероятная причина
потери точности при передаче данных - округления значений координат при
преобразовании их в текстовые форматы файлов обмена.
Заключение
Из вышеизложенного следует, что методические рекомендации по процедуре
обмена данными между различными ГИС можно подготовить только:
-
для конкретного сочетания типов систем: ГИС - поставщика исходного материала
и ГИС - приемника (интегратора) данных;
-
при наличии подробной спецификации поставляемых данных: форматы обменных
файлов для графической компоненты и атрибутивных данных, структура данных
обоих типов, используемые методы кодирования атрибутивной компоненты данных,
в том числе определяющей связь в графикой;
-
при знании организационной структуры принимающей данные ГИС уровня управления
/ федерального уровня, используемых в ней методов кодирования атрибутивной
информации и библиотек картографических условных знаков.
Создать абстрактную универсальную методику обмена данными на сегодня практически
невозможно.
|