Jak zrobić ładnego pdfa ze zeskanowanej, bądź sfotografowanej książki?
2 kroki do wykonania (a jak chcemy na szybko to i jeden):
0. przedkrok - instalujemy pakiet imagemagick
1. Zamieniamy jpegi na gify z kilkoma parametrami dodatkowymi. Dlaczego gif? - lepiej nadaje się do przechowywania czarno białego tekstu ;) m.in mniejszy rozmiar.
Skrypcik:
#!/bin/bash
mkdir gotowe
MAX=`find ./ -name "*.jpg" | wc -l`
COUNT=1
echo "start"
for i in *.jpg
do
convert $i -colors 2 -scale 50% -normalize gotowe/$i.gif
# Inne przykładowe ustawienia:
# convert $i -colors 16 -scale 50% -normalize -unsharp 1.5×1.0+1.5+0.02 gotowe/$i.jpg
echo "$i >>>done $COUNT from $MAX<<<"
let COUNT=COUNT+1
done
echo "<<<>>> >>>ALL is DONE!<<< <<<>>>"
mkdir gotowe
MAX=`find ./ -name "*.jpg" | wc -l`
COUNT=1
echo "start"
for i in *.jpg
do
convert $i -colors 2 -scale 50% -normalize gotowe/$i.gif
# Inne przykładowe ustawienia:
# convert $i -colors 16 -scale 50% -normalize -unsharp 1.5×1.0+1.5+0.02 gotowe/$i.jpg
echo "$i >>>done $COUNT from $MAX<<<"
let COUNT=COUNT+1
done
echo "<<<>>> >>>ALL is DONE!<<< <<<>>>"
2. Zamieniamy nasze pliki na pdf'a (tak samo możemy przeprowadzić konwersję wprost z plików *.jpg - wystarczy zmienić rozszerzenie)
convert *.gif ksiazka.pdf

Przyda się kiedyś.
Przyda się kiedyś. Chociaż jeszcze lepiej by było puścić te JPGi przez OCR aby otrzymać czysty tekst i dodatkowe obrazki a nie obrazki książki. Wiem jednak, że z OCRami pod linuksem jest raczej kiepsko....
Raz, ze kiepsko dwa, ze
Raz, ze kiepsko dwa, ze jednak trwa to trochę i są kłopoty gdy pojawiają się wykresy czy wzory.
W obrazku przynajmniej nic się nie rozjedzie.
Też nie do końca. Nie
Też nie do końca. Nie wiem, czy korzystasz z OCRów, ale postęp jaki te narzędzia zrobiły w ciągu ostatnich lat jest olbrzymi - dobry komercyjny OCR (dostępny dla przeciętnego zjadacza chleba) potrafi przerobić skan na tekst+obrazki+tabele i jeszcze odwzorować formatowanie tekstu.
Przyznam, że gdy dorwałem się do nowoczesnego OCRa kilka miesięcy temu, to bawiłem się nim jak dziecko sprawdzając co potrafi. Miałem już wtedy po dziurki w nosie kombinowania z OCRami dostępnymi na Linux (w wersjach sprzed 3-4 lat).
Wiem, wiem... używam
Wiem, wiem... używam czasami FineReadera - jest naprawdę niesamowity... ale a) kosztuje b)trochę czasu trwa przetworzenie plików...
A jeżeli chodzi nam jedynie o czytanie (czy to monitor, czy wydruk), to powyższa metoda jest MZ lepsza... bo szybsza i darmowa...
Właśnie się przydało, thx.
Właśnie się przydało, thx.
Dodaj nową odpowiedź