Suite

Comment convertir les caractéristiques de la couche de POLYGONE en MULTIPOLYGON ?

Comment convertir les caractéristiques de la couche de POLYGONE en MULTIPOLYGON ?


Comment puis-je convertir les caractéristiques d'une couche de POLYGONE en MULTIPOLYGON ? Je sais comment faire cela en utilisant la fonction postgis ST_Multi mais comment pourrais-je faire la même chose pour une couche dans QGIS?


Si vous souhaitez le faire en fonction d'un champ, vous pouvez le faire dans QGIS à partir du menu : Vector-->Geometry Tools-->Singleparts to Multipart (nécessite au moins deux polygones pour partager un attribut que vous spécifiez).

Il existe un équivalent plus direct à ST_Multi dans OGR. Je n'ai pas trouvé de moyen d'accéder à cette fonctionnalité OGR spécifique via QGIS, mais cela pourrait être fait en utilisant GDAL/OGR comme celui-ciogr2ogr -nlt MULTIPOLYGON multipolygon_output.shp polygon_input.shpPlus de détails sur le commutateur -nlt sont disponibles sur la page ogr2ogr.


En attendant la solution QGIS simple, vous pouvez voir comment cela se passe avec OpenJUMP via le menu contextuel :


R comme SIG pour les économistes

Ici, nous apprenons comment les différents types de sfg sont construits. Nous apprenons également à créer sfc et sf à partir de sfg à partir de zéro. 37

2.2.1 Géométrie d'entité simple ( sfg )

Le package sf utilise une classe d'objets sfg (géométrie d'entité simple) pour représenter la géométrie d'une seule entité géométrique (par exemple, une ville en tant que point, une rivière en tant que ligne, un comté et un district scolaire en tant que polygones). Il existe différents types de sfg s. Voici quelques exemples de types de caractéristiques que nous rencontrons couramment en tant qu'économiste 38 :

  • POINT : entité sans zone qui représente un point (par exemple, un puits, une ville, des terres agricoles)
  • LINESTRING : (par exemple, un affluent d'une rivière)
  • MULTILINESTRING : (par exemple, rivière avec plus d'un affluent)
  • POLYGONE : géométrie avec une aire positive (par exemple, comté, état, pays)
  • MULTIPOLYGONE : collection de polygones pour représenter un seul objet (par exemple, pays avec des îles : États-Unis, Japon)

POINT est le type de géométrie le plus simple et est représenté par un vecteur de deux 39 valeurs numériques. Un exemple ci-dessous montre comment une entité POINT peut être créée à partir de zéro :

La fonction st_point() crée un objet POINT lorsqu'elle est fournie avec un vecteur de deux valeurs numériques. Si vous vérifiez la classe de l'objet nouvellement créé,

vous pouvez voir qu'il s'agit bien d'un objet POINT. Mais, c'est aussi un objet sfg. Ainsi, a_point est un objet sfg de type POINT .

Un objet LINESTRING est représenté par une séquence de points :

s1 est une matrice où chaque ligne représente un point. En appliquant la fonction st_linestring() à s1 , vous créez un objet LINESTRING. Voyons à quoi ressemble la ligne.

Comme vous pouvez le voir, chaque paire de points consécutifs de la matrice est reliée par une ligne droite pour former une ligne.

Un POLYGONE est très similaire à LINESTRING dans la manière dont il est représenté.

Tout comme l'objet LINESTRING que nous avons créé précédemment, un POLYGONE est représenté par une collection de points. La plus grande différence entre eux est que nous devons avoir une zone positive entourée de lignes reliant les points. Pour ce faire, vous avez le même point pour le premier et le dernier points pour boucler la boucle : ici, c'est c(0,0) . Un POLYGONE peut avoir un trou. La première matrice d'une liste devient l'anneau extérieur, et toutes les matrices suivantes seront des trous à l'intérieur de l'anneau extérieur.

Vous pouvez créer un objet MULTIPOLYGON de la même manière. La seule différence est que vous fournissez une liste de listes de matrices, chaque liste interne représentant un polygone. Un exemple ci-dessous :

Chacun de list(p1,p2) , list(p3,p4) , list(p5) représente un polygone. Vous fournissez une liste de ces listes à la fonction st_multipolygon() pour créer un objet MULTIPOLYGON.

2.2.2 Créer une colonne de liste de géométrie d'entité simple ( sfc ) et une entité simple ( sf ) à partir de zéro

Pour créer une simple colonne de liste de géométrie d'entités ( sfc ), vous pouvez simplement fournir une liste de sfg à la fonction st_sfc() comme suit :

Pour créer un objet sf, vous ajoutez d'abord un sfc en tant que colonne à un data.frame .

À ce stade, il n'est pas encore reconnu comme un sf par R.

Vous pouvez l'enregistrer en tant qu'objet sf en utilisant st_as_sf() .

Comme vous pouvez le voir, sf_ex est désormais également reconnu comme un objet sf.

Créer vous-même des objets spatiaux à partir de zéro est une compétence inutile pour beaucoup d'entre nous en tant qu'économistes. Mais, il est toujours bon de connaître la structure sous-jacente des données. De plus, le besoin s'en fait parfois sentir. Par exemple, j'ai dû construire des objets spatiaux à partir de zéro lorsque j'ai conçu des essais d'azote randomisés à la ferme. Dans de tels cas, il est bien sûr nécessaire de comprendre comment les différents types de sfg sont construits, de créer sfc à partir d'une collection de sfg s, puis de créer un sf à partir d'un sfc .↩︎

Vous verrez à peine les autres types de géométrie : MULTIPOINT et GEOMETRYCOLLECTION. Vous pouvez voir GEOMETRYCOLLECTION après avoir croisé deux objets spatiaux. Vous pouvez voir ici si vous souhaitez savoir ce qu'ils sont.↩︎


R comme SIG pour les économistes

Nous discutons ici des moyens de paralléliser le processus d'extraction des valeurs de nombreux fichiers raster multicouches.

6.2.1 Ensembles de données

Nous utiliserons les jeux de données suivants :

  • raster: données PRISM quotidiennes de 2010 à 2019 empilées par mois
  • polygones: grilles de polygones réguliers sur l'Iowa

précipitations quotidiennes PRISM de 2010 à 2019

Vous pouvez télécharger tous les fichiers de prisme à partir d'ici. Pour ceux qui souhaitent apprendre à générer la série de fichiers de données PRISM quotidiens stockés par mois, voir la section 9.3 pour le code.

comtés américains

6.2.2 Extraction non parallélisée

Nous avons déjà appris au chapitre 5.3 qu'il est plus rapide d'extraire des valeurs à partir de couches raster empilées que de le faire à partir de plusieurs jeux de données raster à couche unique, un à la fois. Ici, les ensembles de données sur les précipitations quotidiennes sont empilés par année-mois et enregistrés sous forme de fichiers GeoTIFF multicouches. Par example, PRISM_ppt_y2009_m1.tif stocke les données de précipitations quotidiennes pour janvier 2009. C'est le temps qu'il faut pour extraire les valeurs des comtés américains à partir d'un mois de données de précipitations quotidiennes PRISM.

Maintenant, pour traiter toutes les données de précipitations de 2009 à 2018, nous considérons deux approches dans cette section :

  1. paralléliser sur des polygones et faire une boucle régulière sur l'année-mois
  2. paralléliser sur année-mois

6.2.3 Approche 1 : paralléliser sur des polygones et faire une boucle régulière sur l'année-mois

Pour cette approche, mesurons le temps consacré au traitement d'un ensemble de données PRISM d'un an-mois, puis devinons combien de temps il faudrait pour traiter 120 ensembles de données PRISM d'un an-mois.

D'accord, donc cette approche n'aide pas vraiment. Si nous devons traiter 10 ans de données PRISM quotidiennes, cela prendrait environ 167,39 minutes.

6.2.4 Approche 2 : paralléliser sur la dimension temporelle (année-mois)

Au lieu de paralléliser sur des polygones, parallélisons dans le temps (année-mois). Pour ce faire, nous créons d'abord un data.frame qui contient toutes les combinaisons année-mois sur lesquelles nous allons travailler.

La fonction suivante extrait les données d'un seul cas année-mois :

Nous parcourons ensuite les lignes de month_year_data en parallèle.

Cela a pris 7,52 minutes. Ainsi, l'Approche 2 est clairement gagnante.

6.2.5 Prise en compte de la mémoire

Jusqu'à présent, nous n'avons prêté aucune attention à l'empreinte mémoire des processus parallélisés. Mais, il est crucial lors de la parallélisation de nombreux ensembles de données volumineux. Les approches 1 et 2 diffèrent sensiblement dans leurs empreintes mémoire.

L'approche 1 divise les polygones en un groupe de polygones et effectue une parallélisation sur les groupes lors de l'extraction des valeurs raster. L'approche 2 extrait et conserve les valeurs raster pour 15 des polygones américains entiers. Ainsi, l'approche 1 a clairement une empreinte mémoire moindre. L'approche 2 utilisait environ 40 Go de la mémoire de l'ordinateur, optimisant presque les 64 Go de mémoire RAM de mon ordinateur (il n'y a pas que R ou C++ qui consomment de la mémoire RAM à l'époque). Si vous ne dépassez pas la limite, c'est parfaitement bien. L'approche 2 est certainement une meilleure option pour moi. Cependant, si j'avais 32 Go de mémoire RAM, l'Approche 2 aurait subi une perte significative de ses performances, contrairement à l'Approche 1. Ou, si les données raster avaient deux fois plus de cellules avec la même étendue spatiale, alors l'Approche 2 aurait subi une perte significative de ses performances, alors que l'Approche 1 n'en aurait pas subi.

Il est facile de trouver un cas où l'approche 1 est préférable. Par exemple, supposons que vous ayez plusieurs couches raster de 10 Go et que votre ordinateur dispose de 16 Go de mémoire RAM. Ensuite, l'approche 2 ne fonctionne clairement pas, et l'approche 1 est votre seul choix, ce qui est mieux que de ne pas paralléliser du tout.

En résumé, tout en laissant chaque cœur traiter une plus grande quantité de données, vous devez faire attention à ne pas dépasser la limite de mémoire RAM de votre ordinateur.


Découverte des connaissances dans la recherche d'informations cartographiques spatiales.

LES CATALOGUES DE BIBLIOTHÈQUE POUR LES COLLECTIONS DE CARTES ne sont pas bien développés dans la plupart des bibliothèques. La source d'informations cartographiques diffère des autres types d'informations en ce qu'elle est généralement de forme rectangulaire et définie par les coordonnées des quatre coins de la carte. Ces informations de coordonnées s'avèrent difficiles à utiliser pour de nombreuses personnes, à moins qu'une certaine interface utilisateur ne soit conçue et que des algorithmes de découverte des connaissances soient mis en œuvre. Un système avec une telle interface et de tels algorithmes peut effectuer des requêtes puissantes qu'un système de recherche d'informations textuel ordinaire ne peut pas. Cet article décrit un prototype de système--GeoMatch--qui permet aux utilisateurs de définir de manière interactive des zones géographiques d'intérêt sur une carte d'arrière-plan. Il permet également aux utilisateurs de définir, qualitativement ou quantitativement, la relation entre la zone définie par l'utilisateur et la couverture cartographique. Le facteur de découverte de connaissances dans la base de données (KDD) est analysé dans le processus de récupération. Trois bibliothécaires ont été interviewés pour étudier la faisabilité du nouveau système. Le format de notice MARC est également discuté pour faire valoir que la conversion des notices de documents cartographiques d'un système de catalogue en ligne de bibliothèque existant vers GeoMatch peut être effectuée automatiquement.

La découverte de connaissances dans les bases de données (KDD) est devenue un sujet brûlant ces dernières années. La méthode KDD a été utilisée dans divers domaines, notamment l'analyse de bases de données spatiales (Xu et al., 1997), la classification automatique (Bell, 1998), la détection de déviation (Schmitz, 1990) et le clustering (Cheesman, 1996). Cet article explore l'utilisation de KDD dans la recherche d'informations en examinant la nature et le processus de recherche d'informations géographiques. Il traite des caractéristiques des systèmes d'information géographique (SIG), des notices bibliographiques pour les informations cartographiques et d'un système de recherche d'informations cartographiques basé sur le SIG - GeoMatch.

SIG ET FONCTIONS LIÉES AU SYSTÈME DE RECHERCHE D'INFORMATIONS BASÉ SUR LE SIG

L'Environmental System Research Institute (ESRI) est le plus grand producteur de logiciels SIG au monde. ESRI définit le SIG dans son menu (Environmental System Research Institute, 1991) comme : « Une collection organisée de matériel informatique, de logiciels, de données géographiques et de personnel conçu pour capturer, stocker, mettre à jour, manipuler, analyser et afficher efficacement toutes les formes de données géographiques. informations référencées." La plupart des mots de cette définition peuvent être trouvés dans les définitions de nombreux autres systèmes d'information. Ce qui rend le SIG spécial, c'est le terme de données référencées géographiquement. Le SIG utilise la localisation spatiale comme lien principal pour organiser et manipuler l'information.

Un SIG typique comporte deux composants fonctionnels majeurs : un système de gestion de base de données, qui stocke et manipule les données, et un moteur spatial, qui effectue des opérations topologiques spéciales sur les entités géographiques. Un malentendu courant du SIG est de le considérer simplement comme un cartographe informatisé. Le SIG est un outil analytique puissant qui est bien plus sophistiqué qu'un cartographe. Il est vrai que certains produits SIG sur le marché sont simplifiés pour que les utilisateurs de SIG naïfs puissent générer, visualiser et imprimer des cartes. Ces progiciels / "viewer" ne prennent souvent en charge que des fonctions de manipulation de données limitées. Ils ne sont pas considérés comme des systèmes SIG entièrement fonctionnels. Un SIG peut effectuer une analyse de réseau, une superposition, une mise en mémoire tampon et de nombreuses autres opérations que peu d'autres systèmes d'information peuvent accomplir. Comme Burrough (1990) l'a résumé, un SIG peut répondre à des questions telles que :

* Où se trouve le 785 S. Allen Street à Albany, New York ?

* Dans quel secteur de recensement se trouve l'adresse ci-dessus ?

* Combien de supermarchés se trouvent à moins de cinq kilomètres de l'adresse ci-dessus ?

* Un camion de livraison doit livrer des articles à 200 clients. Quel est l'itinéraire et la séquence les plus courts pour effectuer la livraison ? Si des informations sur le trafic routier sont disponibles, quel est l'itinéraire le plus rapide pour terminer la tâche ?

* Compte tenu de la population d'un comté, quelle est la densité de la population ? (Le SIG peut calculer la superficie du comté avec précision).

* Un nouveau centre commercial va être construit dans la ville. Le centre commercial devrait être construit à au moins huit kilomètres des centres commerciaux existants, à côté d'une rue principale entourée de 5 000 habitants dans un rayon de quatre milles et à moins de dix milles du centre-ville. Quel est le meilleur endroit pour construire le nouveau centre commercial ?

Il existe de nombreuses autres questions auxquelles seul un SIG peut répondre. L'une des fonctions SIG qui est fortement liée au système de recherche d'informations géographiques est la superposition. Certains concepts doivent être définis pour comprendre le processus de superposition.

Dans un SIG, un polygone est une zone fermée délimitée par des lignes telles qu'un secteur de recensement ou un comté. Par conséquent, les polygones ont des zones et des paramètres qu'un SIG peut calculer. Une couche ou un thème est un concept pour une carte de caractéristiques unique dans le SIG. Par exemple, une carte de comté de Floride indiquant l'âge moyen d'une population est une couche de polygones. Ces couches à caractéristiques uniques peuvent être intégrées par SIG à des fins d'analyse.

Le SIG a la capacité de construire une topologie géométrique. Il peut déterminer quelles lignes se croisent pour créer un nœud au point de croisement. Il peut détecter quelles lignes sont connectées pour créer un polygone fermé. Le SIG peut ensuite générer un objet polygone avec des caractéristiques telles que la zone et le paramètre. La topologie dans un SIG peut être exprimée comme la relation de points, de lignes et de polygones. Le SIG peut effectuer une analyse spatiale sophistiquée une fois la topologie établie.

Le processus de fusion de plusieurs couches est appelé superposition, une fonction unique du SIG. Par exemple, supposons qu'il y ait deux cartes imprimées sur des transparents : une carte des secteurs de recensement et une carte d'un lac, toutes situées dans le même comté. Si les deux cartes sont exactement à la même échelle et que les quatre coins des deux cartes représentent exactement les mêmes emplacements, les deux transparents peuvent être assemblés pour créer une nouvelle carte - avec les limites des comtés et la rive du lac. La nouvelle carte est ce qu'on appelle la superposition. Le SIG est très puissant pour effectuer cette opération. Il peut superposer des cartes avec différents types d'entités (point, ligne, polygone) et développer de nouvelles topologies pour une analyse plus approfondie. Burrough (1990) répertorie quarante-quatre types de capacités d'analyse de superposition que les SIG peuvent avoir. La figure 1 illustre le processus de superposition. La première couche cartographique montre les limites des districts scolaires (district C et district D). La deuxième couche cartographique représente les limites des comtés (comté A et comté B). Au cours du processus de superposition, le SIG combine les entités des deux couches cartographiques dans une troisième couche contenant quatre polygones. Dans la troisième couche cartographique, chaque polygone aura des attributs provenant à la fois de la couche cartographique du comté et de la couche cartographique du district scolaire. Par exemple, la zone 1 aura sa zone, son paramètre, le nom du comté A, le nom du district scolaire C et d'autres données précédemment stockées dans les deux couches de la carte. De toute évidence, il serait difficile d'intégrer les données du district scolaire et les données des comtés comme celle-ci en utilisant uniquement des techniques de base de données car les données collectées représentent différentes zones.

[Figure 1 ILLUSTRATION OMIS]

DÉCOUVERTE DE CONNAISSANCES DANS LES BASES DE DONNÉES ET LA RÉCUPÉRATION D'INFORMATIONS

En raison du stockage de données moins coûteux et de l'augmentation de la puissance de calcul, le volume de données collectées par diverses organisations a augmenté rapidement. Cette grande abondance de données, souvent stockées dans des ensembles de données séparés, rend plus difficile la recherche d'informations pertinentes. D'autre part, la puissance des ordinateurs permet également d'intégrer les ensembles de données, de compiler les faits et de développer l'information en « une collection d'inférences connexes » (Trybula, 1997). C'est pourquoi KDD a reçu une telle attention de la part du monde académique et commercial. Selon Tuzhilin (1997), le nombre d'articles soumis au Knowledge Discovery Workshop est passé de 40 en 1993 à 215 en 1996.

Fayyad, Piatetsky-Shapiro et Smyth (1996) définissent le KDD comme « le processus non trivial d'identification de modèles de données valides, nouveaux, potentiellement utiles et finalement compréhensibles » (p. 2). Comme l'a résumé Trybula (1997), les méthodes d'évaluation des données comprennent les algorithmes, l'association, la détermination des changements et des écarts, la visualisation et seize autres techniques analytiques. Quelle que soit la méthode utilisée, le point clé de KDD est de découvrir des connaissances nouvelles, utiles et compréhensibles.

La recherche d'informations peut être simplement exprimée comme un processus d'appariement - apparier le besoin d'information d'un utilisateur avec la source d'information (School of Information Studies, 1998). Dans ce processus, un utilisateur doit exprimer son besoin d'informations avec précision afin que le système puisse récupérer les informations. D'autre part, les sources d'information doivent être organisées de manière à ce que les attributs les plus importants, tels que le titre, l'auteur, les termes du sujet, les mots-clés, l'année de publication, etc., soient facilement disponibles.

Les systèmes de recherche d'informations textuelles sont devenus plus puissants au cours des trois dernières décennies. L'efficience et l'efficacité de la récupération ont été grandement améliorées grâce aux opérateurs booléens, aux troncatures, à la proximité, à la recherche de probabilité et à de nombreux autres mécanismes de recherche. Cependant, certains attributs dans les notices bibliographiques peuvent créer des difficultés pour une correspondance exacte dans une recherche. Certains attributs sont même difficiles à comprendre pour les utilisateurs. Par exemple, les coordonnées géographiques sont des attributs dans les notices MARC pour les données cartographiques. Peu d'utilisateurs voudraient ou seraient capables d'entrer des nombres exacts pour correspondre à ces coordonnées. Encore moins sauraient ce que signifient les chiffres. Malgré ces difficultés, les coordonnées pourraient-elles être utiles dans la recherche d'informations ? Peuvent-elles être traitées pour fournir des connaissances compréhensibles et utiles dans la sélection des informations pertinentes ?

Cet article présentera un prototype d'un système de recherche d'informations cartographiques basé sur SIG et illustrera comment un tel système pourrait en effet générer des connaissances nouvelles et utiles au cours du processus de recherche.

RECHERCHE D'INFORMATIONS CARTOGRAPHIQUES

Recherche d'informations cartographiques dans les bibliothèques

Un point d'accès est défini comme « un nom, un terme, un code, etc., sous lequel une notice bibliographique peut être recherchée et identifiée » (Glossaire, 1995). Un système de recherche d'informations ordinaire a généralement des points d'accès communs tels que l'auteur, le titre, les mots clés, les vedettes-matières, le numéro de classification et les informations provenant d'autres domaines spéciaux.

En plus de sa couverture spatiale, une source d'informations cartographiques, telle qu'une carte à feuille unique, partage la plupart des attributs des autres sources d'informations, y compris le titre et les termes du sujet. Une source d'informations cartographiques est différente des autres formats en ce sens qu'en tant que conteneur d'informations, elle a généralement la forme d'un rectangle et contient les coordonnées des quatre coins de la carte. Néanmoins, la plupart des systèmes de recherche actuels n'utilisent pas de coordonnées géographiques comme points d'accès car cela n'a pas de sens dans un système de recherche d'informations textuelles. De nombreuses bibliothèques sont encore en train de convertir rétrospectivement des catalogues sur fiches en catalogues en ligne textuels pour leurs collections de cartes. Pour étudier la faisabilité des bibliothèques adoptant un système de recherche d'informations cartographiques basé sur le SIG, de longs entretiens avec trois bibliothécaires ont été menés dans deux bibliothèques de Tallahassee, en Floride.

Au cours de chaque entretien, un prototype de système de recherche d'informations cartographiques basé sur un SIG (GeoMatch) a été présenté. Les bibliothécaires ont été invités à répondre à des questions concernant la collection de cartes de la bibliothèque, les besoins des utilisateurs, les outils de récupération et les procédures de recherche. Les bibliothécaires ont également été invités à évaluer la facilité d'utilisation du logiciel prototype et à évaluer l'utilité du système.

La majeure partie de la collection de cartes de la Florida State Library se compose de cartes historiques. Bien que la bibliothèque sous-traite actuellement le catalogage des cartes à une organisation associée à OCLC, le catalogue sur fiches est toujours le principal outil de récupération de la collection de cartes. La bibliothèque n'a ajouté que 800 cartes à son catalogue en ligne. Le catalogue en ligne propose une recherche par mot-clé, qui offre plus de puissance de récupération que le catalogue sur fiches. Le catalogue sur fiches permet de rechercher uniquement à partir des termes de l'auteur, du titre et du sujet. Au cours des entrevues, les bibliothécaires ont indiqué qu'ils avaient vu plus de clients utiliser le catalogue depuis la mise en place de la version en ligne.

La bibliothèque n'a pas encore prévu de numériser (numériser) les cartes. Les clients ne peuvent généralement pas trouver les cartes nécessaires à l'aide du catalogue de cartes. Certains clients peuvent localiser leurs cartes en utilisant le catalogue en ligne avec une recherche par mot-clé. D'une manière générale, les utilisateurs comptent principalement sur les bibliothécaires de cartes pour trouver et accéder aux cartes.

Bien que le système de catalogue en ligne ne puisse pas fournir une assistance suffisante pour accéder aux informations cartographiques, chaque jour, de nombreux utilisateurs de cartes recherchent des cartes historiques, des cartes de chemin de fer et des noms de lieux. Une grande confiance doit être accordée aux connaissances et à l'expertise des cartographes.

BIBLIOTHÈQUE UNIVERSITAIRE D'ÉTAT DE FLORIDE

La bibliothèque de la Florida State University (FSU) possède une collection de 165 000 cartes à feuille unique, notamment des cartes de l'U.S. Geological Survey, des cartes routières, des plans de villes, des cartes thématiques et des cartes historiques. Les enregistrements de la plupart des cartes à feuille unique sont conservés dans le catalogue sur fiches. Les bibliothécaires ont commencé la conversion rétrospective des notices du catalogue de cartes en notices de catalogue en ligne à l'aide d'OCLC. Selon le cartobibliothécaire, la plupart des enregistrements se trouvent dans la base de données d'OCLC. Au cours du processus de conversion, le bibliothécaire doit apporter des modifications mineures avant d'ajouter les notices OCLC au catalogue en ligne de la bibliothèque.

Les bibliothécaires servent chaque jour de nombreux utilisateurs de cartes, y compris les professeurs, les étudiants et les utilisateurs référés par d'autres bibliothèques. Les cartographes connaissent très bien la collection de cartes et peuvent généralement trouver les cartes nécessaires. La situation à la bibliothèque FSU est similaire à celle de la Florida State Library - c'est-à-dire que les bibliothécaires cartographiques sont la source d'informations la plus précieuse, étant donné que le système de catalogue pour les données cartographiques n'est pas très utile.

En résumé, les cartographes des deux bibliothèques sont les sources d'information les plus importantes pour les utilisateurs à la recherche de données cartographiques.

Les deux bibliothèques sont en train de convertir les notices cartographiques du catalogue sur fiches en catalogue en ligne. Le catalogue en ligne avec capacité de recherche a conduit à une utilisation accrue des cartes.

Bien que la plupart des utilisateurs puissent accéder aux informations cartographiques dont ils ont besoin avec l'aide de bibliothécaires, cette situation doit être améliorée, pour plusieurs raisons. Premièrement, les cartographes ne sont pas certains de trouver ou non les cartes qui correspondent le mieux aux besoins des utilisateurs. Deuxièmement, aucun des bibliothécaires ne pense pouvoir fournir une liste complète des cartes qui pourraient intéresser les utilisateurs, en particulier dans une bibliothèque contenant plus de 100 000 cartes. Enfin, la recherche de la bonne information dans un tel système repose largement sur l'expertise humaine. Comme l'a dit un bibliothécaire : "C'est à la merci du bibliothécaire si l'utilisateur peut obtenir une réponse satisfaisante." Si les cartographes actuels quittaient leur poste, il faudrait des années aux nouveaux cartographes pour se familiariser avec la collection de la bibliothèque. Il existe une forte demande pour un outil de recherche puissant pour la collection de cartes de la bibliothèque.

ÉTUDES D'OUTILS DE RÉCUPÉRATION GÉO-BASÉS

Une revue de la littérature indique que des systèmes de recherche d'informations cartographiques plus avancés, conçus pour la recherche de cartes électroniques, ont été créés et sont toujours en cours de perfectionnement. Le projet d'Alexandrie est probablement le système de bibliothèque électronique le plus connu traitant des relations topologiques.

Smith (1996) a décrit l'objectif de la bibliothèque numérique du projet d'Alexandrie (ADL) comme « construire une bibliothèque numérique distribuée (DL) pour les documents référencés géographiquement. Une fonction centrale de l'ADL est de fournir aux utilisateurs un accès à une large gamme de documents numériques matériaux, allant des cartes et des images au texte au multimédia, en termes de référence géographique" (http://www.dlib.org/dlib.org/dlib/march96/briefings/smith/03smith.html).

La sous-équipe de l'Atlas d'Alexandrie étudie « la conception et la fonctionnalité d'un atlas qui prendrait en charge l'accès graphique/géographique aux documents de la bibliothèque » (http://www.alexandria.ucsb.edu/public-documents/annual-report97/node28.html#SECTION000513000000000000000 ). Comme l'indique le site Web d'Alexandrie, « la recherche spatiale n'a pas été un service disponible pour les clients des bibliothèques et il n'est pas du tout clair comment les clients ADL réagiront à la disponibilité de données spatiales réelles sur le Web » (http://www.alexandria. ucsb.edu/public-documents/annual-r port97/node28.html#SECTION000513000000000000000). L'équipe étudie des questions telles que l'échelle, l'enregistrement des données, la présentation des résultats de recherche et les empreintes floues.

Le système Alexandria prend en charge la navigation géographique et la récupération à l'aide d'une interface de carte graphique. Un exemple de l'interface est disponible sur <http://www.dlib.org/dlib/march96/briefings/smith/03smith.html>. Les utilisateurs peuvent zoomer et dézoomer sur la vue actuelle de la carte. Ils peuvent sélectionner les caractéristiques de la carte qu'ils souhaitent voir sur la carte d'arrière-plan, telles que les frontières et les rivières. Les utilisateurs peuvent également sélectionner une zone d'intérêt et un mode de chevauchement des contenus. Un aperçu du système est disponible sur <http://www.alexandria.ucsb.edu/adljigi/tutorials/walkthrough1/walkthrou>.

Le prototype de GeoMatch a quelques nouvelles fonctions en plus de celles disponibles dans le système Alexandria. L'initiative de tester GeoMatch est de répondre aux deux questions suivantes : (1) un outil de recherche basé sur le SIG/Graphique comme le projet Alexandria peut-il être utilisé pour les collections cartographiques non électroniques dans les bibliothèques ? et (2) quelles nouvelles fonctions peuvent être développées pour améliorer l'outil de recherche basé sur le SIG ?

GEO-MATCH - UN OUTIL DE RÉCUPÉRATION QUI RECHERCHE

La figure 2 illustre un écran de requête du système Geo-Match. En plus de spécifier les besoins d'informations ordinaires tels que l'année, le titre, l'éditeur, le mot-clé, etc., ce système permet à un utilisateur d'identifier de manière interactive la zone intéressée à l'aide d'une souris. Il demande également à l'utilisateur de spécifier la relation topologique entre la couverture cartographique et la zone sélectionnée par l'utilisateur. Le système accepte les relations de confinement et de chevauchement telles que résumées par Cobb et Petry (1998). Il existe deux relations de confinement possibles : la zone sélectionnée par l'utilisateur tombe entièrement dans une couverture cartographique ou la couverture d'une carte tombe dans la zone sélectionnée par l'utilisateur. Les utilisateurs peuvent faire une sélection.

[Figure 2 ILLUSTRATION OMIS]

Si un utilisateur décide de sélectionner la relation de chevauchement, davantage de choix deviennent disponibles pour spécifier quantitativement le degré de chevauchement. Ce degré comprend le pourcentage de la zone de chevauchement dans les cartes et le pourcentage de la zone de chevauchement dans la zone sélectionnée par l'utilisateur. Si un utilisateur sélectionne 85 pour cent comme critère de chevauchement dans la zone sélectionnée par l'utilisateur, l'utilisateur trouvera des cartes qui couvrent la majeure partie de la zone d'intérêt (Figure 3). Si un utilisateur sélectionne 85 pour cent comme critère de chevauchement dans la couverture cartographique, l'utilisateur trouvera des cartes qui se concentrent sur la zone sélectionnée (Figure 4). Les utilisateurs peuvent spécifier comment les résultats de la recherche doivent être classés en fonction du degré de chevauchement.

[Figures 3-4 ILLUSTRATION OMIS]

Les principales caractéristiques du prototype sont sa capacité pour l'utilisateur à identifier de manière interactive la zone d'intérêt, c'est-à-dire à spécifier quantitativement la relation entre la zone définie par l'utilisateur et la couverture cartographique, et à classer les résultats de la recherche en fonction du degré de chevauchement.

UTILISATION DE GRAPHIQUES POUR EXPRIMER UN BESOIN D'INFORMATION

Les informations cartographiques sont référencées géographiquement - elles représentent des emplacements et des zones sur la terre. La représentation conventionnelle de l'information à l'aide de texte et de symboles n'est pas très utile pour décrire les informations incluses dans une carte. Il y a trop d'entités géographiques incluses dans une zone. Par exemple, une carte des chemins de fer de Floride peut être indexée à l'aide des mots-clés chemin de fer et Floride. Cependant, la carte comprend également tous les chemins de fer de chaque comté de Floride. Il indique la construction de chemin de fer dans la région de Jacksonville et démontre le chemin de fer près du lac xxx. Il est pratiquement impossible d'indexer tous les noms de lieux inclus dans une zone. Lorsqu'un utilisateur dessine une case pour spécifier un domaine d'intérêt, l'information demandée nécessiterait de nombreux mots pour la décrire. Une interface graphique peut masquer les numéros de coordonnées et les présenter dans des graphiques évolutifs, ce qui permet aux utilisateurs de découvrir beaucoup plus facilement les ressources d'informations cartographiques d'intérêt.

En plus du problème de représentation de l'information discuté précédemment, une interface graphique évite également des problèmes aux utilisateurs lorsque des changements de noms de lieux et de limites de comté se produisent ou lorsqu'ils ne connaissent tout simplement pas le nom exact pour commencer la recherche.

NIVEAU 1 EN KD--SPÉCIFICATION DES RELATIONS TOPOLOGIQUES QUALITATIVEMENT ENTRE LA ZONE DÉFINIE PAR L'UTILISATEUR ET LA COUVERTURE CARTE

Comme indiqué précédemment, le Projet d'Alexandrie peut spécifier qualitativement les relations topologiques entre la zone définie par l'utilisateur et la couverture cartographique dans son système de recherche d'informations cartographiques électroniques. Ce processus d'appariement va au-delà de l'appariement exact dans un système de recherche d'informations conventionnel. Le système informatique calculera la relation topologique entre la zone définie par l'utilisateur et la couverture des cartes pour déterminer si elles se chevauchent ou si l'une en contient complètement une autre.

Cobb et Petry (1998) ont présenté un modèle pour définir et représenter les relations topologiques et directionnelles binaires entre les objets bidimensionnels. De telles relations peuvent être utilisées pour des requêtes floues. Cobb et Petry (1998) résument qu'il existe quatre types de relations principales : disjointes, tangentes (les unes à côté des autres), superposées et confinées. L'hypothèse pour GeoMatch est que les utilisateurs trouveraient le chevauchement et le confinement les plus utiles lors de l'interrogation du système.

Les opérations impliquées dans ce qui précède incluent la conversion des coordonnées d'écran aux coordonnées du monde réel et la comparaison des coordonnées des coins de la zone définie par l'utilisateur et des limites de la carte. Les nouvelles connaissances - que les deux domaines se chevauchent - sont générées dans ce processus. Les connaissances acquises peuvent être utilisées pour diriger les utilisateurs vers la source d'information pertinente. GeoMatch offre aux utilisateurs un choix supplémentaire au-delà du système d'Alexandrie avec lequel définir la relation de confinement.

NIVEAU 2 EN KD--SPÉCIFIANT QUANTITATIVEMENT UNE RELATION TOPOLOGIQUE ENTRE LA ZONE DÉFINIE PAR L'UTILISATEUR (RECTANGLE) ET LA COUVERTURE CARTE

La spécification quantitative d'une relation topologique entre la zone définie par l'utilisateur et la couverture cartographique est une caractéristique unique du système GeoMatch. Dans ce processus, non seulement la relation topologique des deux zones est déterminée, mais un calcul plus mathématique est effectué pour estimer dans quelle mesure les deux zones se chevauchent. By combining the information input by users and the data stored in the database, the computer algorithm discovers new knowledge not explicitly represented in the database. Since the user-defined area is rectangular, the calculation involved is not overwhelming and can be realized using a conventional programming language such as C++ or Visual Basic.

This feature allows the system to achieve a higher recall and precision than those systems without this function. Gluck (1995) made an analysis of the relevance and competence in evaluating the performance of information systems. He indicated that "relevance judgments by users most often assess the qualities of retrieved materials item by item at a particular point in time and within a particular user context" (p. 447). Using the qualitative topological matching technique described in Level 1 above, there could be a large gap between the relevance of the system's view and the relevance of the user's view. For example, users may find that some retrieved maps cover only a small part of the area of interest and in fact are useless, but these maps are relevant from the system's view since they overlap the user-defined area. Users may also find that some retrieved maps cover such a large area that the area of actual interest encompasses only a small portion of the whole map. These maps are relevant too from the system's view but, again, practically useless for users. The reason for such a gap between the user's view and system's view is that not enough "knowledge" is discovered and provided for users to describe their information need in more detail. The techniques employed in the quantitative topological matching can greatly reduce the gap of relevance between the two perspectives. In addition, Geomatch can calculate the spatial relevance of the maps to the area of interest and rank the results using the quantitative overlapping factor, while many systems fail to "provide useful ordering of retrieved records" (Larson, McDonough, O'Leary, Kuntz, & Moon, 1990, p. 550). This function is particularly helpful for users when hundreds of maps are included in the result set.

LEVEL 3 IN KD--SPECIFYING TOPOLOGICAL RELATIONSHIP QUANTITATIVELY BETWEEN USER-DEFINED AREA (FREE STYLE) AND MAP COVERAGE

Specifying a topological relationship quantitatively between a user-defined area and map coverage differs from level 2 in that users are allowed to use the mouse to define an irregular area of interest rather than a straight rectangle. This feature can help users express their information need more precisely. For example, a user interested in the lake shore area of a lake can draw an irregular circle around the lake and perform a search.

This process involves complicated topological calculations that are difficult to accomplish using conventional programming languages. The GIS overlay function introduced at the beginning of this discussion needs to be used to generate new polygons and calculate the areas involved. Although the GeoMatch prototype currently does not have this feature, this function could be implemented using a third party GIS software such as the Spatial Engine from ESRI.

MARC RECORD FOR CARTOGRAPHIC INFORMATION RESOURCES

Whether an information system can be adopted depends not only on its creativity and usefulness but also on the degree of difficulty in converting the current system to the new system. MARC record format is studied to examine what new information needs to be collected to use GeoMatch.

US MARC (Machine Readable Cataloging), developed by the Library of Congress, follows the national standard (ANSI/NISO Z39.50) and international standard. It is the basic format of bibliographic description in the United States. Most online catalogs have a MARC interface for data import and export. OCLC, the bibliographic utility, also provides records in MARC format for members to share.

The current MARC format provides sufficient geographic information to support a more powerful searching tool such as GeoMatch. The most important field is Field 034--Coded Mathematical Data Area Field (Mangan, 1984). If a single set of scales is used, the first indicator is set to "1." The subfield codes include $b (ratio linear horizontal scale) Sc (ratio linear vertical scale) Sd (coordinates--westernmost longitude) Se (coordinates--easternmost longitude) $f (coordinates--northernmost latitude) and $g (coordinates--southernmost latitude). The following is an example of the MARC record 034 field:

The field above illustrates that the map covers an area from West 164 [degrees] 00'00" to West 044 [degrees] 00'00" in longitude and from North 090 [degrees] 00'00" to North 040 [degrees] 00'00" in latitude. This demonstrates that MARC records are capable of defining the scope of a map, and the data are usable in systems like GeoMatch. No additional value-adding operations are necessary unless the bibliographic record of a map is not available from the OCLC database or no matching MARC record is available for the map. If a library already has its map collection in its online catalog, all the records can be imported into GeoMatch automatically.

When librarians at the Florida State Library reviewed the prototype for GeoMatch, they realized that it could give answers to difficult questions. For example, towns may disappear over time, county boundaries may change, and users might not remember an exact place name. In such cases, GeoMatch could be very helpful.

Florida State University Library

The librarian showed interest in the GeoMatch system. She thought the system could be useful but should be integrated with the university library catalog system. When the librarian was asked whether the GeoMatch system could solve some difficult to answer questions, she provided the following example:

In summary, librarians in both libraries confirmed the need for a retrieval tool with a graphic user interface facilitating location-based searching. Such a tool is especially important when a user does not know the exact place name but knows approximately the locations of interest or when the name of a place has changed.

Nevertheless, while the librarians judged the system to be creative and potentially useful, they were not eager to implement such a system in their own libraries.

New spatial information retrieval tools are needed to improve the efficiency and effectiveness of geographically referenced searching. The GeoMatch prototype demonstrates that a graphic-based interface can mine the geographical data buried in MARC records and other geospatial sources and visualize the new knowledge discovered in these data. Combined with the text retrieval capability, this knowledge discovery tool provides users with greater flexibility in locating the information they need. Discovering knowledge in geospatial data is distinct from text information searching because it uses algorithms to convert coordinate information into user-understandable and useful knowledge.

The main contribution of GeoMatch is the quantitative analysis of the relationship in the retrieval process. Not only can it help users to more precisely define their information need and adjust the searching strategy, but it can also be used to rank the results.

The study of the MARC format shows that it supports the data requirements of GeoMatch, and no additional information is required for converting an existing online catalog to GeoMatch.

Future research in geospatial information retrieval systems will focus on the usability of the system and the theoretical framework of spatial information retrieval, including:

1. usability testing of GeoMatch to study the user friendliness and usefulness of the system

2. field testing of implementing GeoMatch in a library catalog system

3. evaluation of the efficiency and effectiveness of the quantitative overlapping function

4. design of the formula and algorithms to rank the searching result using factors from spatial comparison and factors from text information retrieval such as keywords

6. application of such a system to information sources other than paper maps, including electronic images and information that can be geographically referenced and

7. accessibility of such a system over the Web.

Results from these studies could enrich the theories in spatial information retrieval and lead to more powerful and user-friendly information retrieval tools.

Bell, D. A., & Guan, J. W. (1998). Computational methods for rough classification and discovery. Journal of the American Society for Information Science, 49(5), 403-414.

Burrough, P. A. (1990). Principles of geographical information systems for land resources assessment. Oxford: Clarendon Press.

Cheeseman, P., & Stutz, J. (1996). Bayesian classification (autoclass): Theory and results. In U. M. Fayyad (Ed.), Advances in knowledge discovery and data mining (pp. 153-180). Menlo Park, CA: AAAI Press.

Cobb, M. A., & Petry, F. E. (1998). Modeling spatial relationships within a fuzzy framework. Journal of the American Society for Information Science, 49(3), 253-266.

Environmental System Research Institute. (1991). Understanding GIS. Redland, CA: ESRI.

Fayyad, U. M. Piatetsky-Shapiro, G. & Smyth, P. (1996). From data mining to knowledge discovery: An overview. In U. M. Fayyad (Ed.), Advances in knowledge discovery and data mining (pp. 1-34). Menlo Park, CA: AAAI Press.

Glossary. (1995). Retrieved August 18, 1999 from the World Wide Web: http:// www.libraries.rutgers.edu/rulib/abtlib/alexlib/glossary-html.

Gluck, M. (1995). Understanding performance in information systems: Blending relevance and competence. Journal of the American Society for Information Science, 46(6), 446-460.

Larson, R. R. McDonough, J. O'Leary, P. Kuntz, L. & Moon, R. (1996). Cheshire II: Designing a next-generation online catalog. Journal of the American Society for Information Science, 47(7), 555-567.

Mangan, E. U. (1984). MARC conversion manual--maps: Content designation conventions and procedures for AACR2. Washington, DC: Library of Congress.

Schmitz, J. (1990). Coverstory--automated news finding in marketing. Interfaces, 20(6), 29-38.

School of Information Studies, FSU. (1999). Foundations of information studies. Retrieved May 17, 1999 from the World Wide Web: http://slis-one.lis.fsu.edu/courses/5230/.

Smith, T. R. (1996). A brief update on the Alexandria digital library project--constructing a digital library for geographically-referenced materials. Retrieved August 6, 1999 from the World Wide Web: http://alexandria.sdc.ucsb.edu.

Smith, T. R. (1998). Alexandria atlas subteam. Retrieved August 6, 1999 from the World Wide Web: http://alexandria.sdc.ucsb.edu.

Trybula, W. J. (1997). Data mining and knowledge discovery. In M. E. Williams (Ed.), Annual review of information science and technology (pp. 197-229). Medford, NJ: Information Today.

Tuzhilin, A. (1997). Editor's introduction to the special issue on knowledge discovery and its applications to business decision-making. Decision Support Systems, 21(1), 1-2.

Xu, X. W. Ester, M. Kriegel, H. P. &Sander, J. (1997). Clustering and knowledge discovery in spatial databases. Vistas in Astronomy, 41(3), 397-403.

Carter, C. L., & Hamilton, J. (1998). Efficient attribute-oriented generalization for knowledge discovery from large databases. IEEE transactions on knowledge and data engineering, 10(2), 193-208.

Chen, Z., & Zhu, Q. (1998). Query construction for user-guided knowledge discovery in databases. Journal of Information Sciences, 109(1-4), 49-64.

Connaway, L. S. Kochtanek, T. R. & Adams, D. (1994). MARC bibliographic records: Considerations and conversion procedures for microcomputer database programs. Microcomputers for Information Management, 11 (2), 69-88.

Deogun, J. S. Choubey, S. K. Raghavan, V. V. & Sever, H. (1998). Feature selection and effective classifiers. Journal of the American Society for Information Science, 49(5), 423-434.

Maddouri, M. Elloumi, S. & Jaoua, A. (1998). An incremental learning system for imprecise and uncertain knowledge discovery. Journal of Information Science, 109(1-4), 149164.

Morik, K., & Brockhausen, P. (1997). A multistrategy approach to relational knowledge discovery in databases. Machine Learning, 27(3), 287-312.

Vickery, B. (1997). Knowledge discovery from databases: An introductory review. Journal of Documentation, 53(2), 107-122.

Lixin Yu, School of Information Studies, Florida State University, Tallahassee, FL 32306-2100

LIXIN YU is an Assistant Professor at the School of Information Studies, Florida State University, where he teaches courses in database management, user interface design, and information system design and development. He worked as a Project Manager at Geosocial Resources, Inc. and has been working on Geographic Information System projects since 1990. He has published articles on GIS including "Geographic Information Systems in Library Reference Services: Development and Challenge" (Reference Librarian, February 1998) and "Assessing the Efficiency and Accuracy of Street Address Geocoding Strategies" (Proceedings of GIS '97, December 1997).3


Data Transfer

For many projects, it would be nearly impossible to gather all of the necessary data on your own. That’s where external data sources come in. Regardless of where the data comes from, GIS software can overlay all of the information into a single, layered map.

Sources

Any information tied to a specific location can be a part of GIS data collection. According to National Geographic, there are four main categories of GIS data:

  • Cartographic data: cartographic data is already in a map format and describes the location of features, the location of buildings, survey information, etc.
  • Photographic data: photographic data can be used to analyze and map features from print and digital photos, satellite imagery, and aerial photography.
  • Digital data: Digital data includes any information that’s already in digital format, including tables, satellite findings, and any data that’s been digitized by another GIS professional.
  • Spreadsheet data: This includes information in tables and spreadsheets, which typically need to be formatted as an Excel or CSV (comma-separated values) file. Spreadsheets are often the go-to source for demographic information such as age, income levels, or even spending habits.

Process

While there’s no shortage of public data, there’s also little to no standardization, making it difficult to find data in the right format. However, just because data isn’t formatted correctly doesn’t necessarily mean it’s unusable – it just needs to be translated.

There are two main components to translating data for GIS software, syntactic and semantic translation. Syntactic translation is by far the easier of the two, as it only involves translating symbols such as letters and numbers between systems. Semantic translation, on the other hand, is a bit more complicated. It aims to decipher the meaning behind the data, and though progress has been made, semantic translation tends not to be very accurate.


GIS Introduction by David J. Buckey

Data editing and verification is in response to the errors that arise during the encoding of spatial and non-spatial data. The editing of spatial data is a time consuming, interactive process that can take as long, if not longer, than the data input process itself.

Several kinds of errors can occur during data input. They can be classified as:

Incompleteness of the spatial data. This includes missing points, line segments, and/or polygons.
Locational placement errors of spatial data. These types of errors usually are the result of careless digitizing or poor quality of the original data source.
Distortion of the spatial data. This kind of error is usually caused by base maps that are not scale-correct over the whole image, e.g. aerial photographs, or from material stretch, e.g. paper documents.
Incorrect linkages between spatial and attribute data. This type of error is commonly the result of incorrect unique identifiers (labels) being assigned during manual key in or digitizing. This may involve the assigning of an entirely wrong label to a feature, or more than one label being assigned to a feature.
Attribute data is wrong or incomplete. Often the attribute data does not match exactly with the spatial data. This is because they are frequently from independent sources and often different time periods. Missing data records or too many data records are the most common problems.

The identification of errors in spatial and attribute data is often difficult. Most spatial errors become evident during the topological building process. The use of check plots to clearly determine where spatial errors exist is a common practice. Most topological building functions in GIS software clearly identify the geographic location of the error and indicate the nature of the problem. Comprehensive GIS software allows users to graphically walk through and edit the spatial errors. Others merely identify the type and coordinates of the error. Since this is often a labour intensive and time consuming process, users should consider the error correction capabilities very important during the evaluation of GIS software offerings.

Spatial Data Errors

A variety of common data problems occur in converting data into a topological structure. These stem from the original quality of the source data and the characteristics of the data capture process. Usually data is input by digitizing. Digitizing allows a user to trace spatial data from a hard copy product, e.g. a map, and have it recorded by the computer software. Most GIS software has utilities to clean the data and build a topologic structure. If the data is unclean to start with, for whatever reason, the cleaning process can be very lengthy. Interactive editing of data is a distinct reality in the data input process.

Experience indicates that in the course of any GIS project 60 to 80 % of the time required to complete the project is involved in the input, cleaning, linking, and verification of the data.

The most common problems that occur in converting data into a topological structure include:

slivers and gaps in the line work
dead ends, e.g. also called dangling arcs, resulting from overshoots and undershoots in the line work and
bow ties or weird polygons from inappropriate closing of connecting features.

Of course, topological errors only exist with linear and areal features. They become most evident with polygonal features. Slivers are the most common problem when cleaning data. Slivers frequently occur when coincident boundaries are digitized separately, e.g. once each for adjacent forest stands, once for a lake and once for the stand boundary, or after polygon overlay. Slivers often appear when combining data from different sources, e.g. forest inventory, soils, and hydrography. It is advisable to digitize data layers with respect to an existing data layer, e.g. hydrography, rather than attempting to match data layers later. A proper plan and definition of priorities for inputting data layers will save many hours of interactive editing and cleaning.

Dead ends usually occur when data has been digitized in a spaghetti mode, or without snapping to existing nodes. Most GIS software will clean up undershoots and overshoots based on a user defined tolerance, e.g. distance. The definition of an inappropriate distance often leads to the formation of bow ties ou alors weird polygons during topological building. Tolerances that are too large will force arcs to snap one another that should not be connected. The result is small polygons called bow ties. The definition of a proper tolerance for cleaning requires an understanding of the scale and accuracy of the data set.

The other problem that commonly occurs when building a topologic data structure is duplicate lines. These usually occur when data has been digitized or converted from a CAD system. The lack of topology in these type of drafting systems permits the inadvertent creation of elements that are exactly duplicate. However, most GIS packages afford automatic elimination of duplicate elements during the topological building process. Accordingly, it may not be a concern with vector based GIS software. Users should be aware of the duplicate element that retraces itself, e.g. a three vertice line where the first point is also the last point. Some GIS packages do not identify these feature inconsistencies and will build such a feature as a valid polygon. This is because the topological definition is mathematically correct, however it is not geographically correct. Most GIS software will provide the capability to eliminate bow ties and slivers by means of a feature elimination command based on area, e.g. polygons less than 100 square metres. The ability to define custom topological error scenarios and provide for semi-automated correction is a desirable capability for GIS software.

The adjoining figure illustrates some typical errors described above. Can you spot them ? They include undershoots, overshoots, bow ties, and slivers. Most bow ties occur when inappropriate tolerances are used during the automated cleaning of data that contains many overshoots. This particular set of spatial data is a prime candidate for numerous bow tie polygons.

Attribute Data Errors

The identification of attribute data errors is usually not as simple as spatial errors. This is especially true if these errors are attributed to the quality or reliability of the data. Errors as such usually do not surface until later on in the GIS processing. Solutions to these type of problems are much more complex and often do not exist entirely. It is much more difficult to spot errors in attribute data when the values are syntactically good, but incorrect.

Simple errors of linkage, e.g. missing or duplicate records, become evident during the linking operation between spatial and attribute data. Again, most GIS software contains functions that check for and clearly identify problems of linkage during attempted operations. This is also an area of consideration when evaluating GIS software.

Data Verification

Six clear steps stand out in the data editing and verification process for spatial data. These are:

Visual review. This is usually by check plotting.

These data verification steps occur after the data input stage and prior to or during the linkage of the spatial data to the attributes. Data verification ensures the integrity between the spatial and attribute data. Verification should include some brief querying of attributes and cross checking against known values.


8.7 Questions

We will continue to use the COVID-19 dataset. Please see Chapter 11 for details on the data.

Using these data, you are required to address the following challenges:

Fit a varying-slope model. Let one slope to vary by region. Think carefully your choice.

Fit a varying-intercept and varying-slope model.

Compare the results for models fitted in 1 and 2. Which is better? Why?

Use the same explanatory variables used for the Chapter 7 challenge, so you can compare the model results from this chapter.


2 réponses 2

Inspired by @dk14 's answer, now I have a clearer mind on this question, though I don't completely agree with his answer. And I hope to post mine online for more confirmation.

On a vanilla case, where the input of original AlexNet is still (224,224,3), after a series of Conv layer and pooling, we reach the last Conv layer. At this moment, the size of the image turns into (7,7,512).

At the converted Conv layer(converted from FC1), we have 4096 * (7,7,512) filters overall, which generates (1,1,4096) vector for us. At the second converted Conv layer(converted from FC2), we have 4096 * (1,1,4096) filters, and they give us a output vector (1,1,4096). It's very important for us to remember that, in the conversion, filter size must match the input volume size. That's why we have one by one filter here. Similarily, the last converted Conv layer have 1000 * (1,1,4096) filters and will give us a result for 1000 classes.

The processed is summarized in the post: http://cs231n.github.io/convolutional-networks/#convert.

In FC1, the original matrix size should be (7*7*512, 4096), meaning each one of the 4096 neuron in FC2 is connected with every neuron in FC1. While after conversion, the matrix size becomes (7,7,512,4096), meaning we have 4096 (7,7,512) matrixes. It's like taking out each row of the original gigantic matrix, and reshape it accordingly.

Let's start with $F = 7$, $P = 0$, $S = 1$ notion. What does it actually mean:

$F = 7$: receptive field size is set to a maximum value (7 for 1D, 7x7 for 2D) which implies no parameter sharing (as there is only one receptive field), which is default for MLP. If F was equal to 1, all connections (from the image above) would always have an identical weight.

$S = 1$: stride equals to 1, which means that no neurons on the next layer is going to be removed (see figure below). Given $F = 7$ if we had stride = 2, the number of next-layer nodes would be twice smaller. Source: http://cs231n.github.io/convolutional-networks

$P = 0$: no zero padding, as we don't need it for a full receptive field (there is no uncovered units as you can see from image above).

Those three conditions basically guarantee that connectivity architecture is exactly same as for canonical MLP.

Attempt to answer your question about reshaping matrices:

Example of reshaping in Python's Numpy library: numpy.reshape

My guess is that the author meant that FCN usually has 1D output "vector" (from each layer) instead of 2D matrix. Let's say, the first layer of FC-network returns 1x1x4096 output matrix as it doesn't care about image's dimensions - it stacks all dimensions into one vector (put each rows on top of another). You can guess that next layer's weight matrix is gonna have corresponding shape (4096x4096) that combines all possible outputs). So when you convert it to a convolutional receptive field - you'll probably have to move your activations to 2D, so you need 64x64 activations and, I guess, something like 64x64x4096 tensor for receptive field's weights (since $S=1$).

The quote from the article that demonstrates "reshaping":

For example, if 224x224 image gives a volume of size [7x7x512] - i.e. a reduction by 32, then forwarding an image of size 384x384 through the converted architecture would give the equivalent volume in size [12x12x512], since 384/32 = 12. Following through with the next 3 CONV layers that we just converted from FC layers would now give the final volume of size [6x6x1000], since (12 - 7)/1 + 1 = 6. Note that instead of a single vector of class scores of size [1x1x1000], we’re now getting and entire 6x6 array of class scores across the 384x384 image

Example (for activations of some layer):

In order to show weights reshaping (to fit 2D image), I'd have to draw square into cube conversion. However, there is some demos on the internet:

P.S. However, I have some confusion about AlexNet example: it seems like mentioned $F=1$ just means "full" parameter sharing across non-existent dimensions (1x1). Otherwise, it won't be completely equivalent to an MLP with no parameter sharing - but maybe that's what was implied (scaling small FC-network into a large CNN).

to “slide” the original ConvNet very efficiently across many spatial positions in a larger image

Basically it allows you to scale a FC-network trained on small portions/images into a larger CNN. So in that case only small window of resulting CNN will be initially equivalent to an original FCN. This approach gives you ability to share parameters (learned from small networks) across large networks in order to save computational resources and apply some kind of regularization (by managing network's capacity).

Edit1 in response to your comment.

Example of $N = 5$ (sorry I was lazy to draw 7 neurons), $F=5$, $S=2$ :

So you can see that S = 2 can be applied even for receptive field with maximum size, so striding can be applied without parameter sharing as all it does is just removing neurons.

And parameter sharing strategies could be different. For instance, you can't tell about my last figure wether parameter are shared between neurons or not.


Predictive Ecosystem Mapping (PEM) Detailed Polygons with Short Attribute Table - 50,000 Spatial View

PEM_50K contains 1 to 50,000 PEM polygons with key and amalgamated (concatenated) attributes derived from the Resource Inventory Standards Committee (RISC) standard attributes. PEM divides the landscape into units according to a variety of ecological features including climate, physiography, surficial material, bedrock geology, soils and vegetation. PEM uses a modeling approach to ecosystem mapping, whereby existing knowledge of ecosystem attributes and relationships are used to predict ecosystem representation in the landscape. This layer is derived from the STE_TEI_ATTRIBUTE_POLYS_SP layer by filtering on the PROJECT_TYPE and PROJECT_MAP_SCALE attributes.

  • BGC
  • Canada
  • DTEIF
  • Drainage
  • PEM
  • SEI
  • STE
  • STEWI
  • TEIS
  • TEM
  • TER
  • TSM
  • WHR
  • biogeoclimatic
  • bioterrain
  • bioterrain mapping
  • describing terrestr.
  • ecology
  • ecosystem
  • ecosystem mapping
  • ecosystem modelling
  • érosion
  • landslide
  • predictive ecosyste.
  • sedimentation
  • sensitive ecosystem
  • sensitive ecosystem.
  • slope stability
  • soil
  • terrain
  • terrain and ecosystems
  • terrain mapping
  • terrain stability
  • terrain stability m.
  • terrestrial ecosyst.
  • wildlife habitat ra.
  • wildlife inventory

Data and Resources

The PEM data in geodatabase format is available in the TEI Data Distribution.


Driver capabilities¶

This driver supports the GDALDriver::Create() operation

This driver supports georeferencing

KML Reading¶

KML reading is only available if GDAL/OGR is built with the Expat XML Parser, otherwise only KML writing will be supported.

Supported geometry types are Point , Linestring , Polygon , MultiPoint , MultiLineString , MultiPolygon and MultiGeometry . There are limitations, for example: the nested nature of folders in a source KML file is lost folder <description> tags will not carry through to output. Folders containing multiple geometry types, like POINT and POLYGON, are supported.

KML Writing¶

Since not all features of KML are able to be represented in the Simple Features geometry model, you will not be able to generate many KML-specific attributes from within GDAL/OGR. Please try a few test files to get a sense of what is possible.

When outputting KML, the OGR KML driver will translate each OGR Layer into a KML Folder (you may encounter unexpected behavior if you try to mix the geometry types of elements in a layer, e.g. LINESTRING and POINT data).

The KML Driver will rename some layers, or source KML folder names, into new names it considers valid, for example ‘ Layer #0 ’, the default name of the first unnamed Layer, becomes 'Layer__0' .

KML is mix of formatting and feature data. The <description> tag of a Placemark will be displayed in most geobrowsers as an HTML-filled balloon. When writing KML, Layer element attributes are added as simple schema fields. This best preserves feature type information.

Limited support is available for fills, line color and other styling attributes. Please try a few sample files to get a better sense of actual behavior.


Voir la vidéo: Comment créer les couches de dessins Layer sur ArcGis