Mittwoch, 31. Dezember 2008

BioJava kommt zu Debian

Kennt jemand die Java Bytecode Bibliothek? Es unterstützt ein sehr maschinennahes Programmieren mit Java und ist schon sehr chic. In Debian ist es seit geraumster Zeit. Entstanden ist diese Bibliothek (so verstand ich es wenigstens) bei der effizienten Implementation von Hidden Markov Modellen für die Analyse biologischer Sequenzen. Bytecode ist damit eine Art offspring der BioJava Community.


Seit wenigen Stunden liegt nun auch BioJava selbst in der new queue des Debian Projektes. Wer auf das Erreichen der offiziellen Debian server nicht warten möchte - das kann durchaus noch 4+ Wochen dauern und wenn ein zu gravierender Fehler gefunden werden sollte, dann auch noch deutlich länger - der ist herzlichst eingeladen, beim pkg-escience Alioth Projekt sich die Informationen für ein Selbstbau des Paketes zu besorgen.


Update: Das BioJava Paket ist nun Teil von Debian und wird verwaltet über Debian-Med.

Freitag, 26. Dezember 2008

Medizinisch-/Bioinformatisches Rechnen mit Amazon

Eigentlich müsste der Titel dieses Eintrags ja "beliebiges Rechnen" mit Amazon heißen, doch dann wäre hierfür ja kein Platz in diesem Blog. Ich machte mir selber das Weihnachtsgeschenk, Amazons Elastic Compute Cloud (EC2) einmal selber auszuprobieren. Hierzu erstellte ich ein Debian Chroot mit den Paketen aus Debian-Med, verwandelte es mit einer bei LinuxConfig.org gefundenen Anleitung in ein Amazon Machine Image (AMI), und konnte mich erfolgreich in dessen Instanz einloggen.

Das klappte derart problemlos, dass ich nun noch ein wenig sprachlos bin. Bei alestic.com, organisiert in google groups (für Debian und Ubuntu), tummelt sich eine lebhafte Community für die Nutzung von Amazon's services durch und mit Debian/Ubuntu. Das dort vorgestellte Build script (ec2ubuntu-build-ami.notlong.com) ist auch noch eine Runde besser als das von LinuxConfig.org beschriebene Vorgehen.

Die Herausforderung ist nun, das Debian-Med AMI sowohl mit den biologischen Daten kompatibel zu wissen, die Amazon bereits kostenlos anbietet, als auch eine Parallelisierung der jobs darauf zu verwirklichen. Schließlich ist die so grosse compute power das, weswegen wir diese Amazon-Rechner uns wünschen. Und wir möchten nicht gern jedes mal die fehlenden Pakete darauf installieren, wenn wir mehrere 100 Instanzen gleichzeitig starten. Mal umhören, wie dies die anderen alle so lösen.

Montag, 22. Dezember 2008

Dockian

Besonders "tangible" sind Protein-Strukturen. Debian (und bald auch Ubuntu) bietet nun einen Satz von Paketen an zu einer Entwicklungs aus dem kalifornischen Scripps Institut, "AutoDock" mitsamt der "AutoDockTools", die die Stärke und Lokalisation der Bindung eher kleinerer beweglicher chemischer Substanzen zu eher großen unflexiblen simulieren.

Die Installation dieser Software war bislang eher diffizil. Die nun verfügbaren Pakete sollten die Adaption dieser Programme in der Community der Molekularbiologen und Biochemiker vorantreiben. Man darf gespannt sein. Mehr steht auf http://wiki.debian.org/AutoDock. Die PopCon-Statistiken von Ubuntu+Debian berichten von zusammen einer kleinen dreistelligen Anzahl von Installationen.

Eine nicht unwesentliche Motivation zur Paketierung von AutoDock ist die dadurch vereinheitlichte Installation auf den verschiedensten UNIX/Linux Platformen. Fehler können so besser lokalisiert werden. Aber es könne auch Programme zur Vorbereitung oder Auswertung des Dockings leichter erstellt werden. Damit wird AutoDock auch direkt auf den verschiedenen Grid Platformen einsetzbar. Da jeder Ligand einzeln betrachtet werden kann, bedarf es auch keiner Anstrengung für eine parallele Abarbeitung. Bei Interesse bitte dasselbige kundtun auf der Diskussions-Liste des NorduGrid.