14. معالجة مستندات XML

انظر المستند XML التالي:

<tribu>
  <enseignant>
    <personne sexe="M">
      <nom>dupont</nom>
      <prenom>jean</prenom>
      <age>28</age>
      ceci est un commentaire
    </personne>
    <section>27</section>
  </enseignant>
  <etudiant>
    <personne sexe="F">
      <nom>martin</nom>
      <prenom>charline</prenom>
      <age>22</age>
    </personne>
    <formation>dess IAIE</formation>
  </etudiant>
</tribu>

نقوم بتحليل هذا المستند لإنتاج الناتج التالي على وحدة التحكم:

 tribu
  enseignant
   (personne,(sexe,M) )
    nom
     [dupont]
    /nom
    prenom
     [jean]
    /prenom
    age
     [28]
    /age
   /personne
   section
    [27]
   /section
  /enseignant
  etudiant
   (personne,(sexe,F) )
    nom
     [martin]
    /nom
    prenom
     [charline]
    /prenom
    age
     [22]
    /age
   /personne
   formation
    [dess IAIE]
   /formation
  /etudiant
 /tribu

نحتاج إلى معرفة كيفية التعرف على:

علامة البداية مثل <training>؛
علامة نهاية مثل </teacher>؛
علامة بداية مع سمات مثل <person gender="F">؛
نص العلامة، مثل "martin" في <name>martin</name>.

يُطلق على البرنامج الذي يقوم بتحليل كود XML اسم محلل XML. توفر وحدتان الوظائف اللازمة لتحليل كود XML: xml.sax و xml.sax.handler.

توفر لنا الوحدة النمطية [xml.sax] محلل XML باستخدام العبارة التالية:

xml_parser=xml.sax.make_parser()

يقوم هذا المحلل بتحليل نص XML بالتسلسل. ويستدعي الطرق التي يحددها المستخدم عند وقوع الأحداث:

طريقة startElement عند علامة البداية؛
طريقة endElement عند علامة الإغلاق؛
طريقة characters على نص العلامة.

علينا أن نخبر المحلل أي فئة تنفذ هذه الطرق:

xml_parser.setContentHandler(XmlHandler())

نقوم بتمرير مثيل لفئة تنفذ طرق startElement و endElement و characters إلى طريقة setContentHandler الخاصة بالمحلل. الفئة المستخدمة هي فئة فرعية من فئة xml.sax.handler.ContentHandler. يتم استدعاء الطرق السابقة مع المعلمات:

def startElement(self,name,attributs):

name هو اسم علامة البداية. attributes هو قاموس سمات العلامة. وبالتالي، بالنسبة للعلامة <person sex="M">، سيكون لدينا name="person" و attributes={'sex':'M'}

def endElement(self,name):

name هو اسم علامة النهاية. وبالتالي، بالنسبة لعلامة </student>، سيكون لدينا name='student'.

def characters(self,data):

data هو نص العلامة. وبالتالي، إذا كانت العلامة

<nom>
    dupont
</nom>

سيكون لدينا data='\r\n dupont\r\n '. بشكل عام، سنقوم بإزالة المسافات البيضاء التي تسبق البيانات وتليها.

الآن بعد توضيح ذلك، يمكننا الانتقال إلى البرنامج النصي لتحليل مستند XML:

البرنامج (xml_sax_01)

#    -*- coding=utf-8 -*-

import xml.sax, xml.sax.handler,re

#    management class XML
class XmlHandler(xml.sax.handler.ContentHandler):

    #  function called when a start tag is encountered
    def startElement(self,name,attributs):
        global depth
        #    a sequence of spaces (indentation)
        print " " * depth,
        #    attributes
        precisions=""
        for (attrib,valeur) in attributs.items():
            precisions+="(%s,%s) " % (attrib,valeur)
        #  displays the tag name and any attributes
        if precisions :
            print "(%s,%s)" % (name,precisions)
        else :
            print name
        #    an extra level of tree structure
        depth+=1
        #  is it a data tag?
        global balisesDonnees,baliseDeDonnees
        if balisesDonnees.has_key(name.lower()):
            baliseDeDonnees=1

    #  the function called when an end tag is encountered
    def endElement(self,name):
        #    end of tag
        #    indentation level
        global depth
        depth-=1
        #    a sequence of spaces (indentation)
        print " " * depth,
        #    tag name
        print "/%s" % (name)

    #    data display function
    def characters(self,data):
        #    data
        global baliseDeDonnees

        #  is the current tag a data tag?
        if not baliseDeDonnees :
            return
        #    indentation level
        global depth
        #    a sequence of spaces (indentation)
        print " " * depth,
        #  data are displayed
        match=re.match(r"^\s*(.*)\s*$",data)
        if match:
            print "[%s]" % (match.groups()[0])
        #    end of data tag
        baliseDeDonnees=False

#    ------------------------------------------- main  
#  the program
#    data
file="data.xml"       #  the xml file
depth=0               #  indentation level=depth in tree structure
balisesDonnees={"nom":1,"prenom":1,"age":1,"section":1,"formation":1}
baliseDeDonnees=True     #    to true, indicates a data tag

#    create an xml text analysis object
xml_parser=xml.sax.make_parser()
#  the tag manager
xml_parser.setContentHandler(XmlHandler())
#    xml file processing
xml_parser.parse(file)

ملاحظات:

يستخدم البرنامج النصي مكتبة الوظائف من وحدتي xml.sax و xml.sax.handler (السطر 3)؛
السطر 62: ملف XML الذي تم تحليله؛
السطر 68: محلل XML؛
السطر 70: سيكون معالج الأحداث الصادرة عن المحلل مثيلًا لفئة XmlHandler؛
السطر 72: يبدأ تحليل مستند XML؛
السطر 6: الفئة التي تنفذ طرق startElement و endElement و characters. وهي مشتقة من فئة xml.sax.handler.ContentHandler، التي تنفذ الطرق المستخدمة من قبل المحلل؛
السطر 9: طريقة startElement؛
السطر 30: طريقة endElement؛
السطر 41: طريقة characters.

النتائج هي تلك المعروضة في بداية هذه الفقرة.