TI/Podstawy XML i jego parsowanie - Historia wersji

http://brain.fuw.edu.pl/edu/index.php?action=history&feed=atom&title=TI%2FPodstawy_XML_i_jego_parsowanie TI/Podstawy XML i jego parsowanie - Historia wersji 2026-07-23T22:40:23Z Historia wersji tej strony wiki MediaWiki 1.34.1 http://brain.fuw.edu.pl/edu/index.php?title=TI/Podstawy_XML_i_jego_parsowanie&diff=1937&oldid=prev Jarekz: Utworzono nową stronę " <!-- * idea xml (język deklaratywny itp.) * parsowanie xml za pomocą etree (lxml) * idea pisania parsera (rekurencja i chodzenie po drzewach) * co zrobić z plikami x..." 2015-05-23T13:50:26Z

<p>Utworzono nową stronę " <br /> ==XML==<br /> Nazwa XML jest skrótem od {{ang|Extensible Markup Language}}, co w wolnym tłumaczeniu oznacza "rozszerzalny język znaczników". Sam XML jest uniwersalnym językiem przeznaczonym do reprezentowania różnych danych w strukturalizowany sposób.<br /> <br /> {{solution|title=Język formalny|text= język złożony ze wszystkich słów (wyrażeń) uzyskiwanych za pomocą ściśle określonych reguł; definiowany zwykle przez gramatykę formalną (zgodnie ze składnią języka formalnego); podstawowe pojęcie lingwistyki matematycznej (za [http://encyklopedia.pwn.pl/haslo.php?id=3917941 Encyklopedią PWN]<br /> ).}}<br /> XML nie jest językiem programowania i nie trzeba być programistą, by z niego korzystać. XML sprawia, że generowanie danych i ich odczyt są znacznie łatwiejsze, zapewniając strukturę łatwą do generacji i odczytu programowego. XML jest rozszerzalny i niezależny od platformy, i wykorzystuje Unicode do reprezentacji tekstu.<br /> <br /> XML korzysta z tagów (słowa ujęte w '<' i '>') oraz atrybutów (w postaci nazwa="wartość"), bardzo podobnie do HTMLa. Jednakowoż HTML definiuje dokładne znaczenia każdego z tagów i jego atrybutów, jak również ich wygląd w przeglądarce, XML używa tagów tylko do rozgraniczenia pewnej części z całego dokumentu, a interpretację znaczenia pozostawia aplikacji odczytujacej te dane. I tak "&lt;p&gt;" w dokumencie XML-owym nie oznacza początku paragrafu. W zależności od kontekstu, czy konstrukcji formatu danych taki tag może oznaczać dowolny parametr zaczynający się na "p" albo na inną literę alfabetu.<br /> <br /> Pliki XML-owe tak samo jako HTML-owe są plikami tekstowymi. Dzięki temu można przeglądać dane bez potrzeby korzystania z dodatkowych aplikacji, a w ostateczności edytować je korzystając z edytora tekstu. Postać tekstowa umożliwia też łatwiejsze przeglądanie tekstu w celu usuwania błędów. <br /> <br /> W przeciwieństwie do HTML, reguły dotyczące plików XML są ścisłe i nie naruszalne. Źle napisany tag, zgubiony nawias czy atrybut nie ujęty w cudzysłów czyni plik XML bezużytecznym, podczas gdy w HTML taka praktyka jest dozwolona. Oficjalna specyfikacja języka XML zabrania aplikacjom domyślać się co ma znaczyć dany fragment uszkodzonego plik XML; jeśli w pliku jest błąd program powinien wstrzymać wykonywanie i zgłosić błąd.<br /> <br /> Ze względu na postać tekstową danych i rozgraniczanie ich za pomocą tekstowych znaczników, pliki XML-owe są znacząco większe niż pliki biarne z takimi samymi danymi.<br /> <br /> <blockquote>XML pozwala na zdefiniowanie nowego formatu poprzez łączenie lub korzystanie z innego. Ponieważ różne formaty są tworzone zupełnie niezalenie, mogą mieć tagi lub atrybuty o takiej samej nazwie, co powoduje dwuznaczność przy łączeniu takich dokumentów (np. w jednym "&lt;p&gt;" oznacza "paragraf", a w innym "pisarza"). W celu wyeliminowania takiej dwuznaczności w XML wprowadzona mechanizm przestrzeni nazw.(...)XML Schema został zaprojektowany, by odzwierciedlać to wsparcie dla modularności na poziomie definiowania struktury dokumentu XML, ułatwiając połaczeniu dwóch schematów w celu stworzenia trzeciego, który obejmuje strukturę połaczonych dokumentów.</blockquote><br /> ([http://www.w3.org/XML/1999/XML-in-10-points.pl.html XML in 10 points], [http://www.w3.org/People/domain?domain=Communications W3C Communications Team] tłumaczenie Jacek Gleń)<br /> <br /> === Chwila refleksji ===<br /> <br /> Zatrzymajmy się na chwilę, żeby się z oswoić z wyglądem pliku xml [http://escher.fuw.edu.pl/~mm/swps/swps_lb_1.xml prosciutkiego ] i [http://escher.fuw.edu.pl/~mm/swps/swps_lb_1.tag bardziej skomplikowanego]. Podziwiajmy przez chwilę drzewiastą strukturę tych plików, popatrzmy jakie są zasadnicze różnice między nimi.<br /> <br /> ==Parsery==<br /> <br /> ===lxml.etree===<br /> Moduł lxml jest pythonową nakładką na na biblioteki [http://xmlsoft.org/ '''libxml2'''] i [http://xmlsoft.org/XSLT/ '''libxslt'''] napisane w języku <tt>C</tt>. Jest o tyle przyjemna, że łączy szybkość działania i kompletność z naturalnym dla nas interfejsem pythonowym i jest kompatybilna z [http://effbot.org/zone/element-index.htm '''ElementTree'''].<br /> <br /> Poniższe przykłady są częściowo zaczerpnięte z [http://lxml.de/tutorial.html samouczka do '''lxml.etree'''] autorstwa '''Stefana Behnela'''.<br /> <br /> ====import====<br /> Zazwyczaj piszemy:<br /> <source lang="python">from lxml import etree</source><br /> W przypadku, gdy program nie będzie korzystał z funkcjonalności dostępnej wyłącznie w '''lxml.etree''' import można zrobić w następujący sposób:<br /> <source lang="python"><br /> try:<br /> from lxml import etree<br /> print "running with lxml.etree"<br /> except ImportError:<br /> try:<br /> # Python 2.5<br /> import xml.etree.cElementTree as etree<br /> print "running with cElementTree on Python 2.5+"<br /> except ImportError:<br /> try:<br /> # Python 2.5<br /> import xml.etree.ElementTree as etree<br /> print "running with ElementTree on Python 2.5+"<br /> except ImportError:<br /> try:<br /> # normal cElementTree install<br /> import cElementTree as etree<br /> print "running with cElementTree"<br /> except ImportError:<br /> try:<br /> # normal ElementTree install<br /> import elementtree.ElementTree as etree<br /> print "running with ElementTree"<br /> except ImportError:<br /> print "failed to import ElementTree from any known place"<br /> </source><br /> ====Klasa <tt>Element</tt>====<br /> <tt>Element</tt> jest podstawowym kontenerem w <tt>ElementTree</tt>. W większości wypadków do drzewa XML-owego dostajemy się przez tęże klasę. <br /> <br /> Tworzymy obiekt o nazwie <tt>root</tt> klasy <tt>Element</tt>:<br /> <source lang="pycon"><br /> >>> root = etree.Element("root")<br /> </source><br /> <br /> Do XML-owej nazwy znacznika (taga) dostajemy się za pomocą pola <tt>tag</tt>:<br /> <source lang="pycon"><br /> >>> print root.tag<br /> root<br /> </source><br /> <br /> Obiekty klasy <tt>Element</tt> tworzą strukturę drzewa XML-owego. Żeby skontruować dzieci i dodać je do rodzica, można m.in. użyć metody <tt>append</tt>:<br /> <source lang="pycon"> >>> root.append( etree.Element("child1") )</source><br /> <br /> Można też do tego użyć fabryki <tt>SubElement</tt>, która wymaga podania nazwy rodzica jako parametru oraz takich samych parametrów, jak fabryka <tt>Element</tt>.<br /> <source lang="pycon"><br /> >>> child2 = etree.SubElement(root, "child2")<br /> >>> child3 = etree.SubElement(root, "child3")<br /> </source><br /> <br /> Zobaczmy, jakie drzewo xml-owe stworzyliśmy:<br /> <source lang="pycon"><br /> >>> print(etree.tostring(root, pretty_print=True))<br /> <root><br /> <child1/><br /> <child2/><br /> <child3/><br /> </root><br /> </source><br /> <br /> ====<tt>Element</tt>y są sekwencjami====<br /> Żeby było jeszcze prościej, elementy zachowują się jak sekwencje:<br /> <source lang="pycon"><br /> >>> child = root[0]<br /> >>> print child.tag<br /> child1<br /> <br /> >>> print len(root)<br /> 3<br /> <br /> >>> root.index(root[1]) # tylko w lxml.etree!<br /> 1<br /> <br /> >>> children = list(root)<br /> <br /> >>> for child in root:<br /> ... print child.tag<br /> child1<br /> child2<br /> child3<br /> <br /> >>> root.insert(0, etree.Element("child0"))<br /> >>> start = root[:1]<br /> >>> end = root[-1:]<br /> <br /> >>> print start[0].tag<br /> child0<br /> >>> print end[0].tag<br /> child3<br /> <br /> >>> root[0] = root[-1] # zmienia kolejność elementów w drzewie w lxml.etree<br /> >>> for child in root:<br /> ... print child.tag<br /> child3<br /> child1<br /> child2<br /> </source><br /> ====<tt>Element</tt>y mają atrybuty====<br /> W XML-u tagi mogą mieć atrybuty. Tagi z atrybutami, można tworzyć bezpośednio za pomocą klasy <tt>Element</tt>:<br /> <source lang="pycon"><br /> >>> root = etree.Element("przedmiot", interesujacy="strasznie")<br /> >>> etree.tostring(root)<br /> b'<przedmiot interesujacy="strasznie"/>'<br /> </source><br /> Dostęp do atrybutów zapewniany jest przez metody <tt>set</tt> i <tt>get</tt>:<br /> <source lang="pycon"><br /> >>> print root.get("interesting")<br /> None<br /> >>> print root.get("interesujacy")<br /> strasznie<br /> >>> root.set("interesujacy","troszke")<br /> >>> print root.get("interesujacy")<br /> troszke<br /> </source><br /> Za pomocą metody <tt>set</tt> można tez atrybuty dodawać:<br /> <source lang="pycon"><br /> >>> root.set("trudny","troszke")<br /> >>> print root.get("interesujacy")<br /> troszke<br /> </source><br /> Atrybuty można też uzyskać za pomocą metody <tt>attrib</tt>:<br /> <source lang="pycon"><br /> >>> print root.attrib<br /> {'interesujacy': 'troszke', 'trudny': 'troszke'}<br /> </source><br /> <br /> === Atrybuty są słownikami === <br /> <br /> Kontynuując poprzedni przykład, <tt>attrib</tt> zwraca nam słownik atrybutów danego taga:<br /> <br /> <source lang="pycon"><br /> >>> child = root[0]<br /> >>> child.tag<br /> 'child1'<br /> >>> child.set("atr", "1")<br /> >>> print child<br /> <Element child1 at 13943a0><br /> >>> child.attrib<br /> {'atr': '1'}<br /> >>> child.set("atr2", "2")<br /> >>> child.attrib<br /> {'atr2': '2', 'atr': '1'}<br /> </source><br /> <br /> === Pliki ===<br /> Parsery xml jednak najczęściej służą do przetwarzania w jakiś sposób plików, a nie tylko tworzenia struktury xml'owej w pamięci, więc teraz przyjrzymy się prostym przykładom plików:<br /> ==== Odczyt ====<br /> <root><br /> <child>One</child><br /> <child>Two</child><br /> </root><br /> Skopiujmy gdzieś ten kawałek, i zapiszmy pod nazwą example.xml.<br /> <source lang="python"><br /> >>> xml_file = "/sciezka/bezwzgledna/example.xml"<br /> >>> tree = ET.parse(xml_file)<br /> >>> element = tree.getroot()<br /> >>> print element.tag<br /> root<br /> >>> for subelement in element:<br /> print subelement.text<br /> <br /> One<br /> Two<br /> </source><br /> <br /> Żeby nie mieszało nam się, które słówka są kluczowe, a które możemy samodzielnie wymyślać, przepiszmy ten przykład na język polski:<br /> <korzen><br /> <dziecko>Pierwsze</dziecko><br /> <dziecko>Drugie</dziecko><br /> </korzen><br /> <br /> <source lang="python"><br /> >>> plik_xml = "/Users/magda/przyklad.xml"<br /> >>> drzewko = ET.parse(plik_xml)<br /> >>> el = drzewko.getroot()<br /> >>> for podelement in el:<br /> print podelement.text<br /> <br /> Pierwsze<br /> Drugie<br /> >>> print el.tag<br /> korzen<br /> </source><br /> Wzbogaćmy nasz przykładowy plik o atrybuty w tagach:<br /> <korzen><br /> <dziecko atrybut="wartosc" atrybut2="wartosc2">Pierwsze</dziecko><br /> <dziecko>Drugie</dziecko><br /> </korzen><br /> <source lang="python"><br /> from xml.etree import ElementTree as ET<br /> <br /> plik_xml = "/Users/magda/przyklad.xml"<br /> drzewko = ET.parse(plik_xml)<br /> el = drzewko.getroot()<br /> for podelement in el:<br /> print podelement.text<br /> print podelement.attrib<br /> <br /> # Wynik wykonania:<br /> >>><br /> Pierwsze<br /> {'atrybut2': 'wartosc2', 'atrybut': 'wartosc'}<br /> Drugie<br /> {}<br /> </source><br /> ==== Zapis ====<br /> <br /> === Przydatne funkcje ===<br /> API biblioteki lxml.etree oraz xml.etree są bardzo podobne. Na potrzeby naszych zajęć prawdopodobnie nawet nie zauważymy różnicy. Wygodna dokumentacja jest [http://docs.python.org/library/xml.etree.elementtree.html tu(xml.etree)] oraz [http://lxml.de/api/index.html tu (lxml)]<br /> Poniżej kilka przykładów.<br /> ==== find / findall ==== <br /> pozwalające wybrać pierwszy/wszystkie tagi o zadanej nazwie:<br /> <br /> <korzen><br /> <dziecko atrybut="wartosc" atrybut2="wartosc2">Pierwsze</dziecko><br /> <dziecko>Drugie</dziecko><br /> <atrapa>Atrapa</atrapa><br /> <atrapa>Atrapa2</atrapa><br /> <atrapa>Atrapa3</atrapa><br /> </korzen><br /> <br /> <source lang="python"><br /> from xml.etree import ElementTree as ET<br /> <br /> plik_xml = "/Users/magda/przyklad.xml"<br /> drzewko = ET.parse(plik_xml)<br /> el = drzewko.getroot()<br /> dzieci = el.findall("dziecko")<br /> for d in dzieci:<br /> print d.text<br /> atrapy = el.findall("atrapa")<br /> for a in atrapy:<br /> print a.text<br /> <br /> # Wynik wykonania:<br /> >>><br /> Pierwsze<br /> Drugie<br /> Atrapa<br /> Atrapa2<br /> Atrapa3<br /> <br /> </source><br /> <br /> A ile tagów o nazwie dziecko zostanie znalezione w tym przypadku?:<br /> <br /> <korzen><br /> <dziecko atrybut="wartosc" atrybut2="wartosc2">Pierwsze</dziecko><br /> <dziecko>Drugie</dziecko><br /> <atrapa>Atrapa</atrapa><br /> <atrapa>Atrapa2</atrapa><br /> <atrapa>Atrapa3</atrapa><br /> <dziecko><br /> <dziecko><br /> <dziecko><br /> </dziecko><br /> </dziecko><br /> </dziecko><br /> </korzen><br /> <br /> <source lang="python"><br /> from xml.etree import ElementTree as ET<br /> <br /> plik_xml = "/Users/magda/przyklad.xml"<br /> drzewko = ET.parse(plik_xml)<br /> el = drzewko.getroot()<br /> dzieci = el.findall("dziecko")<br /> print len(dzieci)<br /> <br /> # Wynika wykonania:<br /> >>><br /> 3<br /> <br /> </source><br /> <br /> <br /> === Tworzenie własnego parsera ===<br /> <br /> Do budowania drzewa, na którym potem wykonujemy wszystkie operacje, jest używany standardowy "parser". Ale czasem chcielibyśmy wykonać jakieś operacje już na etapie budowania drzewa. Mamy taką możliwość, możemy utworzyć własną klasę, której przedefiniujemy odpowiednie metody, i podać ją jako parametr odpowiednim funkcjom.<br /> W szczególności w powyższych przykładach dotyczących plików mogliśmy funkcji parse jako drugi parametr podać nasz własny parser:<br /> <br /> xml.etree.ElementTree.parse(source, parser=None)<br /> Parses an XML section into an element tree. source is a filename or file object containing XML data. parser is an optional parser instance. If not given, the standard XMLParser parser is used. Returns an ElementTree instance.<br /> <br /> A oto przykład tworzenia własnego parsera, który przy okazji parsowania zlicza głębokość drzewka:<br /> <br /> <source lang="pycon"><br /> >>> from xml.etree.ElementTree import XMLParser<br /> >>> class MaxDepth: # The target object of the parser<br /> ... maxDepth = 0<br /> ... depth = 0<br /> ... def start(self, tag, attrib): # Called for each opening tag.<br /> ... self.depth += 1<br /> ... if self.depth > self.maxDepth:<br /> ... self.maxDepth = self.depth<br /> ... def end(self, tag): # Called for each closing tag.<br /> ... self.depth -= 1<br /> ... def data(self, data):<br /> ... pass # We do not need to do anything with data.<br /> ... def close(self): # Called when all data has been parsed.<br /> ... return self.maxDepth<br /> ...<br /> >>> target = MaxDepth()<br /> >>> parser = XMLParser(target=target)<br /> >>> exampleXml = """<br /> ... <a><br /> ... <b><br /> ... </b><br /> ... <b><br /> ... <c><br /> ... <d><br /> ... </d><br /> ... </c><br /> ... </b><br /> ... </a>"""<br /> >>> parser.feed(exampleXml)<br /> >>> parser.close()<br /> 4<br /> <br /> </source><br /> <br /> Pamiętaj, że gdy używamy argumentu target, XMLParser() nie zwraca automatycznie drzewa -- jesli chcemy, musimy sami je zbudować w naszej klasie, którą podajemy jako target.<br /> <br /> ==== Ćwiczenie ====<br /> Napisz parser, który podczas budowania drzewa zlicza ilość elementów o nazwie child Przetestuj jego działanie.<br /> <br /> === Zadania ===<br /> :<b>Termin oddania projektów do 15-tego czerwca!</b><br /> :<b>Zmiany w terści zadań, wynikające z uwag studentów, akceptowane są do 1-go czerwca!</b><br /> ==== Wstęp do projektu zaliczeniowego: Temat 1 &mdash; tworzenie klas na podstawie opisu w XML ====<br /> =====Dynamiczna generacja klas=====<br /> Python umożliwia dynamiczną generację klas.<br /> <br /> Można to robić na dwa sposoby. W funkcji:<br /> <source lang="python"><br /> def klasa_p(p):<br /> class P(object):<br /> x = p<br /> return P<br /> P_11 = klasa_p(11)<br /> p_11 = P_11()<br /> assert p_11.x == 11<br /> </source><br /> <br /> Przy normalnej definicji klasy, wykonuje się sekwencja poleceń. Na końcu bloku <tt>class</tt> otrzymujemy pewien zestaw zmiennych w przestrzeni nazw (namespace), który jest słownikiem. Można też od razu stworzyć swój namespace, w tym ypadku pewien słownik i za pomocą funkcji <tt>type</tt> klasę o odpowieniej nazwie.<br /> <source lang="Python"><br /> B = type('B', (object,), dict(x=11))<br /> assert B().x == 11<br /> </source><br /> Argumentami funkcji type są &mdash; nazwa klasy, lista rodziców i treść klasy, czyli słownik. czyli de facto jej namespace.<br /> Wiedząc, że w pythonie można dynamicznie tworzyć klasy tak jak w poniższym przykładzie:<br /> <br /> I kolejne przykłady:<br /> <ul><li><source lang="Python"><br /> class C(object):<br /> def f(self, x): return x<br /> f = lambda x: None<br /> assert C().f(33) == None<br /> </source><br /> <li><source lang="python"><br /> par = "self.y * self.y"<br /> x = "y"<br /> d={}<br /> d[x] = 10<br /> d["action"] = lambda self: eval(par)<br /> Bar = type('Bar',(object,),d)<br /> b = Bar()<br /> print b.y<br /> print b.action()<br /> </source><br /> </ul><br /> =====Treść projektu=====<br /> Napisz prosty program, który z zadanego opisu XML tworzy klasę. Opis XML może wyglądać np. tak:<br /> <br /> <class nazwa="Test"><br /> <attribute nazwa="y" wartosc="10"><br /> </attribute><br /> <attribute nazwa="x" wartosc="5"><br /> </attribute><br /> <method nazwa="action" tresc="self.y * self.y"><br /> </method><br /> <method nazwa="metoda2" tresc="self.x * self.y"><br /> </method><br /> </class><br /> <br /> W znaczniku class w atrybucie nazwa jest zapisana nazwa klasy. W znacznikach o nazwie "attribute" w atrybucie "nazwa" jest zapisana nazwa atrybutu klasy, w atrybucie "wartosc" -- jego wartosc.<br /> W znacznikach "method" w atrybucie "nazwa" jest nazwa metody, a atrybucie "tresc" -- jej tresc. Dopuszczamy wyłącznie bardzo proste metody, bezparametrowe, operujące na atrybutach obiektu i wyłącznie zwracające wynik tych operacji.<br /> Nieprecyzyjności w sformułowaniu należy zinterpretować na własną korzyść, tzn tak, jak nam ławiej zaimplementować rozwiązanie.<br /> <br /> ==== Projekt zaliczeniowy: Temat 1 -- tworzenie klas na podstawie opisu w XML ====<br /> <br /> Rozwiń powyższe zadanie.<br /> * Zaprojektuj sposób opisu klasy, uwzględniający możliwie dużo aspektów nie objętych obecną wersją, np.:<br /> ** metody z argumentami<br /> ** zmianę metody init<br /> ** metody, które coś wypisują<br /> ** oddzielnie metody klasowe od metod obiektu<br /> ** oddzielnie atrybuty klasowe od atrybutów obiektu<br /> ** dziedziczenie<br /> ...<br /> <br /> Sposób opisu zaprojektowany przez Ciebie może być zupełnie inny niż zaproponowany we wstępie do zadania.<br /> Napisz parser, który na podstawie opisu XML zgodnego z Twoimi "zasadami" zaimplementuje opisane klasy.<br /> <br /> <br /> ==== FAQ do Tematu 1 ====<br /> <br /> ==== Wstęp do projektu zaliczeniowego: Temat 2 ====<br /> <br /> <br /> ==== Projekt zaliczeniowy: Temat 2 -- Parsowanie pliku z metaopisem danych ====<br /> <br /> Rozwiń swoją klasę do cięcia danych z pracowni o automatyczne wczytywanie wszystkich możliwych parametrów, typu częstość próbkowania, nazwy/ilość elektrod z zadanego pliku .xml<br /> Format pliku .xml -- tak jak pliki .info z pracowni.<br /> Przy ocenie zadania będzie brana pod uwagę dokładność implementacji: odporność na błędy, łapanie wyjątków, jakość dokumentacji, itd<br /> <br /> ==== FAQ do Tematu 2 ====<br /> <br /> ==Literatura==<br /> Korzystałyśmy z:<br /> # [http://www.w3.org/XML/1999/XML-in-10-points.pl.html XML in 10 points]<br /> # [http://lxml.de/tutorial.html samouczek do lxml.etree]</div>

Jarekz