Questions fréquemment posées sur la prise en main de XML (3)

黄舟
Libérer: 2016-12-22 17:38:20
original
1954 Les gens l'ont consulté

Comment charger des documents comportant des caractères étrangers et spéciaux ?

Les documents peuvent contenir des caractères étrangers, tels que :


caractères étrangers (úóí?)


Par exemple, les caractères étrangers tels que 磲 doivent être précédé d'une séquence d'échappement. Les caractères étrangers peuvent être codés en UTF-8 ou spécifiés avec un encodage différent, comme indiqué ci-dessous :


caractères étrangers (磲)


Le XML se charge désormais correctement.

D'autres caractères sont réservés en XML et doivent être traités différemment. Le XML suivant :


This & that
produit l'erreur suivante :
Aucun espace n'est autorisé ici.
Ligne 0000001 : Ceci & cela
Position 0000012 : ----------^


Ici & fait partie de la structure syntaxique XML, s'il vient d'être placé Dans la source de données XML, il ne peut pas être interprété comme &. Vous devez remplacer les séquences de caractères spéciaux appelées « entités ».

 This & that
Les caractères suivants nécessitent des entités correspondantes :


 <
  ''


Le guillemet est utilisé comme délimiteur pour les valeurs d'attribut dans le balisage et ne peut donc généralement pas être utilisé à l'intérieur des valeurs d'attribut. Par exemple, ce qui suit renverra une erreur :

Le guillemet simple ici est utilisé à la fois comme délimiteur d'attribut et dans la valeur d'attribut elle-même. Afin de corriger ce problème, vous pouvez remplacer le délimiteur d'attribut par des guillemets doubles :

Ou vous pouvez échapper les guillemets simples vers des entités '

Les deux méthodes ci-dessus seront transmises dans le Modèle objet XML La méthode getAttribute renvoie la valeur d'attribut de John's Stuff. De même, pour les guillemets doubles, vous pouvez utiliser l'entité

 ".

Vous pouvez également gérer les caractères spéciaux dans le contenu de l'élément en plaçant le texte dans une section CDATA. Ce qui suit est correct :


Dans ce Par exemple, le modèle objet XML affiche le nœud CDATA en tant que nœud enfant du nœud XML, qui renvoie la chaîne

 Ceci et cela n'est qu'un contenu "texte".

 comme nodeValue > Comment utiliser MSXML. Composant COM dans Visual Studio 6.0 C ?

Le moyen le plus simple d'utiliser le composant COM MSXML dans Visual C 6.0 est d'utiliser la directive #import :

#import "msxml.dll" nommé_guids no_namespace# import "msxml.dll" nommé_guids no_namespace

 Il définit toutes les interfaces IXML* et les ID d'interface afin qu'ils puissent être utilisés dans les applications. Vous pouvez également obtenir la bibliothèque de types MSXML et les fichiers d'en-tête à partir d'INETSDK (anglais) et uuid.lib. qui contient les IID de classe. Comment utiliser les entités HTML en XML ?

Le XML suivant contient des entités HTML :


Copyright 2000, Microsoft Inc, Tous droits réservés.

Il produit l'erreur suivante :

Référence à une entité non définie 'copie' Ligne : 1, Position : 23, Code d'erreur : 0xC00CE002
Copyright 2000, ...

-------------^


Ceci est dû au fait que XML n'a que cinq entités intégrées. Pour plus de détails. sur les entités intégrées, voir Comment charger des documents avec des caractères étrangers et spéciaux ? Pour utiliser des entités HTML, vous devez les définir avec une DTD. Pour plus d'informations, consultez les recommandations XML du W3C (en anglais). directement dans la balise DOCTYPE, comme suit :



Copyright ? 2000, Microsoft Inc, Tous droits réservés

Pour le charger, vous devez tourner. désactiver l'attribut validateOnParse de l'interface IXMLDOMDocument. Essayez de le coller dans la page de test du validateur, désactivez la validation DTD et cliquez sur Valider. Notez que le document se chargera et que les caractères de copyright apparaîtront dans l'arborescence DOM à la fin de la page du validateur.

Si la validation de la DTD est terminée, l'entité HTML en tant qu'entité paramètre doit être incluse dans la DTD existante comme suit :

%HTMLENT;
% HTMLENT;

  Il définira toutes les entités HTML afin qu'elles puissent être utilisées dans les documents XML.

Comment gérer les espaces dans le contenu des éléments ?

XML DOM propose trois manières d'accéder au contenu textuel d'un élément :


Comportement de l'attribut

nodeValue renvoie TEXT, CDATA, COMMENT et PI comme spécifié dans la source XML d'origine Le contenu du texte brut sur le nœud (y compris les caractères d'espacement). Pour les nœuds ELEMENT et DOCUMENT lui-même, null est renvoyé.


Données identiques à nodeValue

Text Connectez à plusieurs reprises plusieurs nœuds TEXT et CDATA dans le sous-arbre spécifié et renvoyez le résultat combiné.

Remarque : les caractères d'espacement incluent les nouvelles lignes, tabulations et espaces.

L'attribut nodeValue renvoie généralement le contenu du document d'origine, quelle que soit la façon dont le document a été chargé et la portée xml:space actuelle.

L'attribut text connecte tout le texte du sous-arbre spécifié et étend l'entité. Cela a à voir avec la façon dont le document est chargé, l'état actuel du commutateur PReserveWhiteSpace et la portée xml:space actuelle, voir ci-dessous :

PRESERVEWHITESPACE = TRUE Lorsque le document est chargé

PreserVewhiteSpace = True PreservedSpace = True PreservewhiteSpace = FA LSE PRESERVEWHITESPACE = FALSE

XML : Space = Preserve XML : Space = DEFAULT XML : space=preserve 🎜>preserveWhiteSpace=true préservationWhiteSpace=true préservationWhiteSpace=false

xml:space=preserve xml:space=default xml:space=preserve xml:space=default réservé semi-réservé Et tronqué À moitié conservé À moitié conservé et tronqué


Préserver ici signifie que le contenu du texte original est exactement le même que dans le document XML original, la troncature signifie que les espaces de début et de fin ont été supprimés, Semi-préservé signifie que les « caractères d'espacement importants » sont préservés et les « caractères d'espacement sans importance » sont normalisés. Les caractères d'espacement importants sont des caractères d'espacement dans le contenu du texte. Les caractères d'espacement non significatifs sont les caractères d'espacement entre les jetons, ressemblent à ceci : le rouge est un caractère d'espacement sans importance qui peut être ignoré, tandis que le vert est un caractère d'espacement important car il fait partie du contenu du texte et a donc une signification importante qui ne peut pas être ignoré. Ainsi, dans cet exemple, la propriété text renvoie ce qui suit :

Valeur de retour du statut

Réservé "nt JanentSmith n"

Réservé et tronqué "JanentSmith"

Semi- réservé " Jane Smith "

 

"Jane Smith" semi-conservé et tronqué

Veuillez noter que "semi-conservé" normalisera les caractères d'espacement sans importance, par exemple, les caractères de nouvelle ligne et de tabulation seront réduits à un seul espace. Si vous modifiez l'attribut xml:space et le commutateur préservationWhiteSpace, les propriétés de texte renverront des valeurs différentes en conséquence.

Limites des sous-arbres CDATA et xml:space="preserve"

Dans l'exemple ci-dessous, le contenu des nœuds CDATA ou "preserve" sera concaténé car ils ne participent pas à la normalisation des caractères d'espacement sans importance. Par exemple :

n

t Jane n
t Smith ]>n


Dans ce cas, les caractères d'espacement à l'intérieur du nœud CDATA ne sont pas "Fusionner" plus longtemps avec des caractères d'espacement "sans importance" et non tronqué. Ainsi, le cas "à moitié conservé et tronqué" renverra ce qui suit : Le contenu n'est pas pertinent. Si CDATA est remplacé par ce qui suit, les mêmes résultats seront renvoyés :

Smith
Les entités sont spéciales

Les entités sont chargées et analysées dans le cadre de la DTD et affichées sous le nœud DOCTYPE . Ils n’ont pas besoin d’avoir de portée xml:space. Par exemple :

Jane n

tn

">
]>

plage de balises), les caractères d'espacement sans importance sont perdus lors de l'analyse de l'entité. L'entité sera ne pas avoir de nœuds de caractères d'espacement. L'arbre ressemblera à :



DOCTYPE foo
ELEMENT : employé

ELEMENT : nom

TEXTE : Jane
ELEMENT : titre

TEXT>:Software Design Engineer

ELEMENT: foo

ATTRIBUT: xml:space="preserve" > ENTITYREF: Jane

Veuillez noter que l'arborescence DOM exposée sous le nœud ENTITY à l'intérieur du DOCTYPE ne contient aucun nœud WHITESPACE. Cela signifie que les nœuds enfants du nœud ENTITYREF n'ont pas de nœuds WHITESPACE, même si la référence d'entité est dans le XML. Il en va de même pour la portée de :space="preserve". L'instance d'une ENTITÉ référencée dans un document donné a généralement la même arborescence. Si l'entité doit absolument conserver les caractères d'espacement, elle doit alors spécifier son propre attribut xml:space en interne, ou le commutateur documentpreserveWhiteSpace doit être défini sur true.
 Comment gérer les espaces dans les attributs ?

Il existe plusieurs façons d'accéder aux attributs Value L'interface IXMLDOMAttribute a la propriété nodeValue, qui est équivalente aux propriétés nodeValue et text comme extensions Microsoft. propriétés renvoyées : le texte renvoyé par la propriété.


 attrNode.nodeValue
 attrNode.value
 getAttribute("name") renvoie exactement le même contenu (et entités étendues) que dans le document d'origine.
 attrNode.nodeTypedValue Null
 attrNode.text est identique à nodeValue sauf que les espaces de début et de fin ont été tronqués.


La spécification "XML Language" définit le comportement suivant pour les applications XML : Texte renvoyé par type d'attribut
CDATA ID, IDREF, IDREFS, ENTITY, ENTITIES, NOTATION, Enumeration

Semi-normalisation Normalisation complète

Ici, la semi-normalisation signifie convertir de nouvelles lignes et caractères de tabulation en espaces, mais plusieurs espaces ne dégénéreront pas en un seul espace.

Ce qui précède est le contenu de la FAQ (3) pour démarrer avec XML. Pour plus de contenu connexe, veuillez faire attention au site Web PHP chinois (www.php.cn) !


Étiquettes associées:
xml
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal