Odstavce pri konverzi z PDF v Calibre

Ring volný... (General Discussion)

Moderátor: Knihovníci

Čtenář
Příspěvky: 40
Registrován: 16 lis 2010 13:44

Odstavce pri konverzi z PDF v Calibre

Příspěvekod jester » 17 lis 2010 20:08

Marně jsem na internetu pátral po nějakém jednoduchém řešení jak převést PDF do nějakého čitelnějšího formátu. Většina detekcí odstavců nějakým způsobem odhaduje odstavec podle délky řádku, což je někdy úspěšné někdy ne. Nakonec jsem to vzdal a vymyslel si svůj vlastní způsob. Využívám Calibre, celý trik spočívá v použití vhodných regulárních výrazů.

Princip je jednoduchý a vše se nastavuje při konverzi (nebo v nastavení) v menu Struktura Detekce
zaškrtněte odstranit patičku stránky a vyplňte Patičkový regulární výraz
Kód: Vybrat vše
-(<br>)\n|(?<=.{50}[^.!?“:] )<br>

Tento výraz spojí rozdělená slova na konci řádku a dále spojí do jednoho odstavce řádky delší než 50 znaků pokud nekončí znaky .!?": , tedy pokud se ukončí odstavec, tak určitě ne uprostřed věty, ale vždy až po interpunkčním znaménku, nebo pokud je řádek kratší než 50 znaků. Délku řádku si můžete změnit podle potřeby změnou čísla v regulárním výrazu.

následující hlavičkový regulární výraz pomůže odstranit některé číslování (kliknutím na kouzelnickou hůlku můžete vyzkoušet jestli funguje správně)
Kód: Vybrat vše
(\d+) (<br>\s*)<hr>(\s*<A name=\d+></a>)|<hr>(\s*<A name=\d+></a>)|(<hr>)(\s*<A name=\d+></a>)(\d+) (<br>\s*)(.*)(<br>)|(<hr>)(\s*<A name=\d+></a>)(.*)(<br>\s*)(\d+) (<br>)

Zpět na Obecné diskuze

Kdo je online

Uživatelé procházející toto fórum: Seznam [Bot], Yahoo [Bot] a 1 návštěvník