lxml
下のような XML があったとする。 <document> out outer1 <outer> in outer1 <inner> in inner </inner> in outer2 </outer> out outer2 </document> ここで、 document 以下のテキストを一気に書き換えたい。 期待するのは以下の様な動作。(上記 XML を sample.xml とする) >>> import lxml.html >>> xml = op…
以下のような XML があったとする。 <document> <deleteme>この要素をタグごと消したい。<wac/> あああああ </deleteme> </document> ここで、 要素のテキストを消したい。 >>> xml = open('sample.xml', 'rb').read() >>> root = lxml.html.fromstring(xml) >>> elements = root.xpath('//deleteme') >>> for…
後で使いそうなのでメモ。 文の添削をXMLで表したファイルがあるとする。 <document> 私<correct value='は'>を</correct>元気です。 </document> ここでは「私『を』元気です。」を「私『は』元気です。」に訂正している。 要素が誤った文字を指し、それに対する正しい文字を value 属性で表している。 ここで、…
公式配布のバイナリを使う。 http://pypi.python.org/pypi/lxml/2.3#downloads ここの lxml-2.3.win32-py2.7.exe easy_install や pip でインストールできるはずけど、エラー出る人も結構いる(自分含め)みたいなのでバイナリが楽。 バージョンがちょっと古…