ひまわり
昨日からスキャニングとOCRのくり返しです。スキャニングは卒業論文のゼミ生がコピーしてきた史料をPDFファイルで保管するため。OCRは、 「Optical character recognition」の略で、日本では「光学式文字認識」と呼ばれ、要は印刷された文字を読み取って、コンピューターで扱えるようにデジタルの文字にすることです。これ、私は1990年代から使っていて、当時、スキャナーは400ddpiで8万円もしたんですよ。今はじゃ1万円台のスキャナーでも4000dpi台が普通ですよね。隔世の感があります。しかも当時のOCRはまだまだ読み取りがひどかった。ルビなんぞがあった日には目も当てられない。仕方がないので、ルビ部分なんぞは字消しの白いテープで消してから読み込ませたものでした。また、史料を読み込ませるのがまた辛かった。旧字体が使われていたらもうアウト…といった状況でしたね。
最近は使うことはほとんどなかったのですが、久しぶりに使ってみて…。最近のアプリが使い勝手がよいとは言えないですね。OCRは結局、前準備をきちんとやっていた方が認識率が高くなるんですよ。あれこれ使ってみたのですが、結局、DocuWorksのVe.7を使うことになりました。これは最初に範囲指定とかできますので、便利なのです。でも最新のDocuWorksはVer.9.1なんですよ。Ver.8にはしてみたのですが、使い勝手が悪くなったのと、使えるPCの台数制限がかかっていましたので、そのまま放置しております。なかなか難しいものです。
なお、この作業は、野の花出版社で研究書出版の委託を受けているからです。昔の論文だとデータが残っていない場合が多いので、OCRでデジタルの文字に変換しています。5点の論文ですが、ルビや脚注、それに史料の型式など、レイアウトが必要なものもあって、とにかく今はテキストにするだけです。
1番困るのは助詞で使われるカタカタを「ニ」を漢数字の「二」と認識してしまうことですね。これは置換機能を使って変更しています。但し、1点ごとに確認するを選んで1つ1つやっていかないと、数字の「二」までカタカタの「ニ」に変えてしまいますから…(^^;)
また、読み込んだ文字は1行ごとに改行してあります。この改行を削除するのもたいへんです。これについては一太郎の「範囲指定をして改行を削除する」機能を使って削除しています。
この2つの処理が実はたいへんなのですが、一応、一太郎を使うとそうそう時間をかけずにできます。便利です。
昨日からこんな仕事ばかりで机にしがみついています。そんな時、庭に咲いた一輪のひまわりに癒されています。
おっと、畑仕事の呼出しです。いや、僕も行く!と言っただけですが…。何より畑のひまわりが咲いているのか気になるのです。
2本が見事に咲いていて、1本はもうすぐですね。残りの2本も近く咲くでしょう。背の高さも違うので、それぞれに咲いているところがいいですね。
今日はインゲンマメが大収穫でした。詳しくはまた後ほど(^^)/
投稿者プロフィール
最新の投稿
- 今日のつぶやき2023年10月2日一炊の夢 L188Mile
- お知らせ2023年9月12日秋の北條秀司展 L257Mile
- 今日のつぶやき2023年6月29日夏色 L281Mile
- 今日のつぶやき2023年6月21日あつぎ郷土博物館 L289Mile
コメントを残す