2012-07-01から1ヶ月間の記事一覧

lxml で XML で子要素のテキストをフラットにする。

下のような XML があったとする。 <document> out outer1 <outer> in outer1 <inner> in inner </inner> in outer2 </outer> out outer2 </document> ここで、 document 以下のテキストを一気に書き換えたい。 期待するのは以下の様な動作。(上記 XML を sample.xml とする) >>> import lxml.html >>> xml = op…

子要素をもつ XML のテキストを lxml で消したい

以下のような XML があったとする。 <document> <deleteme>この要素をタグごと消したい。<wac/> あああああ </deleteme> </document> ここで、 要素のテキストを消したい。 >>> xml = open('sample.xml', 'rb').read() >>> root = lxml.html.fromstring(xml) >>> elements = root.xpath('//deleteme') >>> for…

XMLの属性の値とテキストを入れ替える in Python + lxml

後で使いそうなのでメモ。 文の添削をXMLで表したファイルがあるとする。 <document> 私<correct value='は'>を</correct>元気です。 </document> ここでは「私『を』元気です。」を「私『は』元気です。」に訂正している。 要素が誤った文字を指し、それに対する正しい文字を value 属性で表している。 ここで、…

すごいHaskell七章(後半 7.4まで)

型コンストラクタ・型引数 data Maybe a = Nothing | Just a ここでの Maybe が型コンストラクタ。 a は型引数。 Maybe が型引数に型を受けとることで、 Maybe Int, Maybe Char などの型を作ることが出来る。例えば、 Just 1 の型は Num a => Maybe a …これ…

lxml をインストール (windows7 64bit で python2.7 32bitに)

公式配布のバイナリを使う。 http://pypi.python.org/pypi/lxml/2.3#downloads ここの lxml-2.3.win32-py2.7.exe easy_install や pip でインストールできるはずけど、エラー出る人も結構いる(自分含め)みたいなのでバイナリが楽。 バージョンがちょっと古…

リストアップされたファイルを別のディレクトリに移すバッチファイル

ファイルをリストアップしたファイル list.txt があって、そこに記述されたファイルのみを別のディレクトリに移す。 gist → https://gist.github.com/3051671 バッチファイル。第一引数にリストファイルを、第二引数に移動先ディレクトリを指定する。 @echo …

久しぶりに

まともに作業した気がする。やればやるほど時間がないのがわかってくる。 今日はコーパスの処理をするために、タグの仕様を調べてたんだけど、ちょっと曖昧なところがあって、あとで相談したい。

終わっとる

いろいろ事が

進んだ感じになった。自分からなにかできたわけじゃないけど、結果オーライというか…。話についていけないところがかなりあったので、やっぱり勉強不足なんだなと思った。

朝、aとの電話。こちらの経歴をひと通り話して、またメールを頂けることになった。わりとシンプルに仲介するだけって感じなのかな。あと、履歴書の書き方について聞いた。枠をどんなふうに使って、自分がどんな人間かを説明する感じらしい。どこにやりがいを…

……

やりたくないことを先延ばしにするのはともかく、先延ばしにしてるあいだ、他のことにも手がつかなくなるからもうどうしようもない。やりたくないことをやらざるを得ない状況になった時点で、何もしない時間が大量にできて、ロスになる。