Calibre: pdf in epub konvertieren

Aus Hergipedia
Version vom 18. April 2011, 14:26 Uhr von Fkoehler (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „== Synopsis == Als ebook-Format können pdfs mit einer Reihe Problemen behaftet sein, z.B.: * Seitenzahlen * immer wiederkehrende Sc4nfeh!er * Header ("converted…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Synopsis

Als ebook-Format können pdfs mit einer Reihe Problemen behaftet sein, z.B.:

  • Seitenzahlen
  • immer wiederkehrende Sc4nfeh!er
  • Header ("converted by AMBERlit blahblahblah")
  • falsch umbrochene Zeilen
  • ...

Die nachfolgende Anleitung beschreibt einen etwas umständlichen aber robusten Weg, um störrische pdfs in schöne epubs zu konvertieren. Auf einem schnellen Rechner sollte das mit etwas Übung pro Buch in 5-10 Minuten zu schaffen sein.


Schritt 1 : Umwandeln ins Textformat

Am besten mit einem tool des libpoppler pdf-toolkits (Bestandteil der OpenSUSE Standardinstallation). calibres pdf2text suckt.

  pdftotext -layout -nopgbrk buch.pdf buch.txt

Schritt 2: Korrektur und Markdown Auszeichnungen

Hierfür verwendet man am besten einen Texteditor seiner Wahl. Stichwort vim (:s und q). Wichtig ist, dass am Ende

  1. Überschriften mit # ausgezeichnet sind und
  2. eine Leerzeile zwischen Paragraphen steht.

Beispiel:

 # einfache Markdown-Syntax
 
 Dies ist ein einziger Paragraph, der
 auch als ein einzelner Paragraph erkannt wird.
 
 Hier beginnt der nächste Paragraph.


Noch trickreicherer Formatierungen verschiebt man besser auf später.

Schritt 3: Umwandeln in htmlz

dieser Schritt mit Hilfe des markdown tools aus dem Paket python-markdown (repo OSS). calibres markdown Modul suckt.

  markdown buch.txt > index.html
  zip buch.htmlz index.html

Schritt 4: Umwandeln von htmlz nach epub

  • Das htmlz-Format mit calibre einlesen (Edit metadata/Add format)
  • Convert ebook htmlz -> epub

Schritt 5: epub verschönern

sigil ist die Waffe der Wahl ([1])

minimalistisch:

im stylesheet.css den main-text style auf Blocksatz + Einrückung + kleinem Absatzabstand ändern

 margin-bottom: 0;
 margin-top: 2pt;
 text-indent: 1em;
 text-align: justify;

Überschriften zentrieren:

 text-align:center;

perfektionistisch

  • unterschiedlich formatierte Textpassagen (Intros, Zitate, ...)
  • Bilder

Fini.