ひまわり

今日のつぶやき
ひまわり

昨日からスキャニングとOCRのくり返しです。スキャニングは卒業論文のゼミ生がコピーしてきた史料をPDFファイルで保管するため。OCRは、 「Optical character recognition」の略で、日本では「光学式文字認識」と呼ばれ、要は印刷された文字を読み取って、コンピューターで扱えるようにデジタルの文字にすることです。これ、私は1990年代から使っていて、当時、スキャナーは400ddpiで8万円もしたんですよ。今はじゃ1万円台のスキャナーでも4000dpi台が普通ですよね。隔世の感があります。しかも当時のOCRはまだまだ読み取りがひどかった。ルビなんぞがあった日には目も当てられない。仕方がないので、ルビ部分なんぞは字消しの白いテープで消してから読み込ませたものでした。また、史料を読み込ませるのがまた辛かった。旧字体が使われていたらもうアウト…といった状況でしたね。

最近は使うことはほとんどなかったのですが、久しぶりに使ってみて…。最近のアプリが使い勝手がよいとは言えないですね。OCRは結局、前準備をきちんとやっていた方が認識率が高くなるんですよ。あれこれ使ってみたのですが、結局、DocuWorksのVe.7を使うことになりました。これは最初に範囲指定とかできますので、便利なのです。でも最新のDocuWorksはVer.9.1なんですよ。Ver.8にはしてみたのですが、使い勝手が悪くなったのと、使えるPCの台数制限がかかっていましたので、そのまま放置しております。なかなか難しいものです。

なお、この作業は、野の花出版社で研究書出版の委託を受けているからです。昔の論文だとデータが残っていない場合が多いので、OCRでデジタルの文字に変換しています。5点の論文ですが、ルビや脚注、それに史料の型式など、レイアウトが必要なものもあって、とにかく今はテキストにするだけです。

1番困るのは助詞で使われるカタカタを「ニ」を漢数字の「二」と認識してしまうことですね。これは置換機能を使って変更しています。但し、1点ごとに確認するを選んで1つ1つやっていかないと、数字の「二」までカタカタの「ニ」に変えてしまいますから…(^^;)

また、読み込んだ文字は1行ごとに改行してあります。この改行を削除するのもたいへんです。これについては一太郎の「範囲指定をして改行を削除する」機能を使って削除しています。

この2つの処理が実はたいへんなのですが、一応、一太郎を使うとそうそう時間をかけずにできます。便利です。

昨日からこんな仕事ばかりで机にしがみついています。そんな時、庭に咲いた一輪のひまわりに癒されています。

おっと、畑仕事の呼出しです。いや、僕も行く!と言っただけですが…。何より畑のひまわりが咲いているのか気になるのです。

2本が見事に咲いていて、1本はもうすぐですね。残りの2本も近く咲くでしょう。背の高さも違うので、それぞれに咲いているところがいいですね。

今日はインゲンマメが大収穫でした。詳しくはまた後ほど(^^)/

投稿者プロフィール

馬場 弘臣

馬場 弘臣東海大学教育開発研究センター教授
専門は日本近世史および大学史・教育史。
くわしくは、サイトの「馬場研究室へようこそ」まで!

コメントを残す

コメントを残す

«
»
  • LINEで送る