Comment charger des documents comportant des caractères étrangers et spéciaux ?
Les documents peuvent contenir des caractères étrangers, tels que :
caractères étrangers (úóí?)
Par exemple, les caractères étrangers tels que 磲 doivent être précédé d'une séquence d'échappement. Les caractères étrangers peuvent être codés en UTF-8 ou spécifiés avec un encodage différent, comme indiqué ci-dessous :
caractères étrangers (磲)
Le XML se charge désormais correctement.
D'autres caractères sont réservés en XML et doivent être traités différemment. Le XML suivant :
This & that
produit l'erreur suivante :
Aucun espace n'est autorisé ici.
Ligne 0000001 : Ceci & cela
Position 0000012 : ----------^
Ici & fait partie de la structure syntaxique XML, s'il vient d'être placé Dans la source de données XML, il ne peut pas être interprété comme &. Vous devez remplacer les séquences de caractères spéciaux appelées « entités ».
This & that
Les caractères suivants nécessitent des entités correspondantes :
<
''
Le guillemet est utilisé comme délimiteur pour les valeurs d'attribut dans le balisage et ne peut donc généralement pas être utilisé à l'intérieur des valeurs d'attribut. Par exemple, ce qui suit renverra une erreur :
Le guillemet simple ici est utilisé à la fois comme délimiteur d'attribut et dans la valeur d'attribut elle-même. Afin de corriger ce problème, vous pouvez remplacer le délimiteur d'attribut par des guillemets doubles :
".
Vous pouvez également gérer les caractères spéciaux dans le contenu de l'élément en plaçant le texte dans une section CDATA. Ce qui suit est correct :
Dans ce Par exemple, le modèle objet XML affiche le nœud CDATA en tant que nœud enfant du nœud XML, qui renvoie la chaîne
comme nodeValue > Comment utiliser MSXML. Composant COM dans Visual Studio 6.0 C ?
Le moyen le plus simple d'utiliser le composant COM MSXML dans Visual C 6.0 est d'utiliser la directive #import :
Il définit toutes les interfaces IXML* et les ID d'interface afin qu'ils puissent être utilisés dans les applications. Vous pouvez également obtenir la bibliothèque de types MSXML et les fichiers d'en-tête à partir d'INETSDK (anglais) et uuid.lib. qui contient les IID de classe. Comment utiliser les entités HTML en XML ?
Le XML suivant contient des entités HTML :
Copyright 2000, Microsoft Inc, Tous droits réservés.
Référence à une entité non définie 'copie' Ligne : 1, Position : 23, Code d'erreur : 0xC00CE002
Copyright 2000, ...
Copyright ? 2000, Microsoft Inc, Tous droits réservés
Pour le charger, vous devez tourner. désactiver l'attribut validateOnParse de l'interface IXMLDOMDocument. Essayez de le coller dans la page de test du validateur, désactivez la validation DTD et cliquez sur Valider. Notez que le document se chargera et que les caractères de copyright apparaîtront dans l'arborescence DOM à la fin de la page du validateur.
%HTMLENT;
% HTMLENT;
Comportement de l'attribut
Données identiques à nodeValue
Text Connectez à plusieurs reprises plusieurs nœuds TEXT et CDATA dans le sous-arbre spécifié et renvoyez le résultat combiné.
Remarque : les caractères d'espacement incluent les nouvelles lignes, tabulations et espaces.
L'attribut nodeValue renvoie généralement le contenu du document d'origine, quelle que soit la façon dont le document a été chargé et la portée xml:space actuelle.
L'attribut text connecte tout le texte du sous-arbre spécifié et étend l'entité. Cela a à voir avec la façon dont le document est chargé, l'état actuel du commutateur PReserveWhiteSpace et la portée xml:space actuelle, voir ci-dessous :
PRESERVEWHITESPACE = TRUE Lorsque le document est chargé
PreserVewhiteSpace = True PreservedSpace = True PreservewhiteSpace = FA LSE PRESERVEWHITESPACE = FALSE
XML : Space = Preserve XML : Space = DEFAULT XML : space=preserve 🎜>preserveWhiteSpace=true préservationWhiteSpace=true préservationWhiteSpace=false
xml:space=preserve xml:space=default xml:space=preserve xml:space=default réservé semi-réservé Et tronqué À moitié conservé À moitié conservé et tronqué
Préserver ici signifie que le contenu du texte original est exactement le même que dans le document XML original, la troncature signifie que les espaces de début et de fin ont été supprimés, Semi-préservé signifie que les « caractères d'espacement importants » sont préservés et les « caractères d'espacement sans importance » sont normalisés. Les caractères d'espacement importants sont des caractères d'espacement dans le contenu du texte. Les caractères d'espacement non significatifs sont les caractères d'espacement entre les jetons, ressemblent à ceci : le rouge est un caractère d'espacement sans importance qui peut être ignoré, tandis que le vert est un caractère d'espacement important car il fait partie du contenu du texte et a donc une signification importante qui ne peut pas être ignoré. Ainsi, dans cet exemple, la propriété text renvoie ce qui suit :
Réservé "nt JanentSmith n"
Réservé et tronqué "JanentSmith"
Semi- réservé " Jane Smith "
"Jane Smith" semi-conservé et tronqué
Dans l'exemple ci-dessous, le contenu des nœuds CDATA ou "preserve" sera concaténé car ils ne participent pas à la normalisation des caractères d'espacement sans importance. Par exemple :
t Jane n
t Smith ]>n
Dans ce cas, les caractères d'espacement à l'intérieur du nœud CDATA ne sont pas "Fusionner" plus longtemps avec des caractères d'espacement "sans importance" et non tronqué. Ainsi, le cas "à moitié conservé et tronqué" renverra ce qui suit : Le contenu n'est pas pertinent. Si CDATA est remplacé par ce qui suit, les mêmes résultats seront renvoyés :
Smith
Les entités sont spéciales
Les entités sont chargées et analysées dans le cadre de la DTD et affichées sous le nœud DOCTYPE . Ils n’ont pas besoin d’avoir de portée xml:space. Par exemple :
Jane n
tn ">
]>
DOCTYPE foo
ELEMENT : employé
TEXTE : Jane
ELEMENT : titre
ELEMENT: foo
ATTRIBUT: xml:space="preserve" > ENTITYREF: Jane Veuillez noter que l'arborescence DOM exposée sous le nœud ENTITY à l'intérieur du DOCTYPE ne contient aucun nœud WHITESPACE. Cela signifie que les nœuds enfants du nœud ENTITYREF n'ont pas de nœuds WHITESPACE, même si la référence d'entité est dans le XML. Il en va de même pour la portée de :space="preserve". L'instance d'une ENTITÉ référencée dans un document donné a généralement la même arborescence. Si l'entité doit absolument conserver les caractères d'espacement, elle doit alors spécifier son propre attribut xml:space en interne, ou le commutateur documentpreserveWhiteSpace doit être défini sur true.
Comment gérer les espaces dans les attributs ?
Il existe plusieurs façons d'accéder aux attributs Value L'interface IXMLDOMAttribute a la propriété nodeValue, qui est équivalente aux propriétés nodeValue et text comme extensions Microsoft. propriétés renvoyées : le texte renvoyé par la propriété.
attrNode.nodeValue
attrNode.value
getAttribute("name") renvoie exactement le même contenu (et entités étendues) que dans le document d'origine.
attrNode.nodeTypedValue Null
attrNode.text est identique à nodeValue sauf que les espaces de début et de fin ont été tronqués.
La spécification "XML Language" définit le comportement suivant pour les applications XML : Texte renvoyé par type d'attribut
CDATA ID, IDREF, IDREFS, ENTITY, ENTITIES, NOTATION, Enumeration
Semi-normalisation Normalisation complète
Ici, la semi-normalisation signifie convertir de nouvelles lignes et caractères de tabulation en espaces, mais plusieurs espaces ne dégénéreront pas en un seul espace.
Ce qui précède est le contenu de la FAQ (3) pour démarrer avec XML. Pour plus de contenu connexe, veuillez faire attention au site Web PHP chinois (www.php.cn) !