2010年8月9日月曜日

漫画と雑誌を自炊

前の日記で文庫を自炊した後で、ここ半月ぐらいの土日休日を使って漫画と雑誌の自炊をしてみた。
漫画。カバーを外して糊付け付近を裁断してドキュメントスキャナ。
見開きをできるだけ生かしたいと思うと切り落としをできるだけ少なくしたいが、あまり狙うと糊付け部分が残ってしまう。手で多少バラす必要が出てくる、だけなら大した問題では無いかと思ったが、やってみると糊でドキュメントスキャナの読み取り部が汚れてしまう。
特に表紙と裏表紙のとこの糊付け幅が広いので要注意。狙うなら、そこだけ別処理するという手もあるかも。今回はそこまでしなかったけど。
カバーと、何度やっても斜行してしまう一部のページ(糊が残ってるせい?)はフラットベッドスキャナで取った。読むのに不自由はしないが、色味が(グレースケールでも黒の濃さが)違ってしまうのが難点。後から調整で揃えるとかできなくは無いだろうけど面倒そうだしパス。
PDFではなく連番画像のZIPにしてみる。最初スキャン画像(無駄に600dpi設定で取ってる)そのまま使ったら一冊500MBぐらいになったので、iPadの解像度に合わせて縦を1024に変換(PaintShopProのバッチ処理で)したら40MB以下になった。B6サイズの漫画ぐらいならそれで十分読める。
雑誌、の付録の小冊子を丸ごと一冊。できればばらさずに、という要望だったのでフラットベッドスキャナで、サイズ的に見開きでは無理なので1ページずつ。さすがに時間かかる。小冊子ならまだやろかって気になるが。
解像度は600dpiで。無駄に高過ぎるかとも思うが、後から解像度落とすことはできるけど云々。
試験的にOCRかけてみた。ちと、いやかなり古いe.Typist v9(updaterは当てた)。日本語の認識率が思った通りに低いのはともかくとして、そっから透明テキスト付きPDFを出力させたらどっかおかしいファイルを吐いてるようで、AcrobatやReaderがエラーになる。データでかすぎるんだろーか。前にCDのライナーを処理してた時は普通に出来てたんだけど。
今日のとこはOCRはあきらめて画像からPDFにするだけにしとく。んでAcrobatのサイズ縮小機能で縮小。それで400MB→90MBぐらいになった。カラーで写真入りとは言え、ページ数考えると、これでもまだ画質が不必要に高過ぎるのかも知れず。
・・・ところでAcrobatにOCR機能付いてなかったっけ。
httpでのファイル取得に対応してるiPad/iPhoneのビューアへのファイル転送用に、居間PCにhttpdを入れた。デフォルト設定だとSkypeとぶつかるので80とSSLの設定を潰しとく。
USBで繋いで同期させた時についでに放り込むんでもいいし、そっちのが転送速度は早いっぽいけど、線で繋ぐより無線で行けた方が楽だとか、線で繋ぐと充電も兼ねてしまうのが電池の充電サイクルを進めてしまうので嫌だとか。
アプリによって使える転送方式や対応ファイル形式が違ってて、見る時の使い勝手にも一長一短があって、使い分けが必要そうな感じ。
次は実用書の類を自炊して、うまく出来たら持ち歩きたい本を自炊しまくりたいが、今回OCRして透明テキスト付きPDF作成がうまくできなかったのでちと困っている。どーしたものか。
まあ、検索するかとゆーと、できりゃ便利だが、そもそも認識率がアレでは検索もアテにならんし、紙でもできてないんだからそれより不便ってわけでもないし、スキャン画像を保存しとけば後からやり直しも可能だし。

0 件のコメント:

コメントを投稿