対訳用に抽出する

ファイルのアップロード

原文ファイルを左側の 「ここに原文ファイルをドロップしてください」 とあるところにドロップします。
訳文も同様に、右側にドロップしてください。
ファイルがドロップされると、Word(docx)/Excel(xlsx)/PPT(pptx)のファイル名が表示されます。
各行の ↑ ↓ をクリックして原文と訳文で番号を合わせてください。
続けてファイルをドロップすると、一覧に追加されていきます。

ファイルの削除

各行の × をクリックすると、当該ファイルを一覧から取り除くことができます。
全ファイルを取り除きたいときは、一覧の右上にある 「リセット」ボタン を押してください

アラインの実行

アップロードと順番の整理ができたらアラインを開始します。
下側にある 「アライン実行」ボタン を押してください。
「ファイル数が原文と訳文で同じか」「同じ番号のファイルの拡張子は同じものか」がチェックされ、問題なければアラインが始まります。
いずれかのエラーが発生した場合は、調整をしてから再度「アライン実行」を押してください。
アラインが完了すると、結果ファイルのダウンロードが始まります(Result.tsv)。

アラインの結果ファイルについて

アラインの結果は「TSV」という形式でダウンロードされます。
TSVはタブ区切りテキストのことで、「原文(タブ)訳文」の順に並んでいます。
アラインがやりやすいようにファイルにはファイル名や一定の 区切り記号(_@λ_ PARAGRAPH _λ@_など) が入っています。

結果ファイルの整形

結果ファイルはそのままでも使えますが、 CATOVIS HELPER を使用すると、より便利に使えます。

オプションの表示

ファイルのドロップゾーンの右側に i というアイコンがあります。
このアイコンをクリックすると、対訳作成の基礎となるテキスト抽出の方法を設定することができます。

なお、オプションの内容は原文側・訳文側いずれのアイコンをクリックしても同じです。
以下でそれぞれの内容について紹介します。

出力ファイル名

ダウンロードされる結果ファイルの名前をあらかじめ決めておくことができます。
一番上のファイル名を使用するをONにすると、
「抽出対象ファイルの一番上のファイル名.tsv」というファイルが生成されます

Wordの修正履歴

修正前と修正後から選択できます。
デフォルトは「修正後」です。
「修正前」を選択すると、修正履歴がない状態(初版)のテキストを抽出します。

この項目のみ、原文と訳文で異なる内容を設定できます。
原文側と訳文側に同じWordファイルを指定し、
原文は「修正前」、訳文は「修正後」を読み込むことで、
修正内容の一覧を作るといったことも可能です。

Excelの非表示シート

Excelの非表示シートを読み込むかどうかを選択できます。
デフォルトは「読み込まない」です。
「読み込む」を選択すると、非表示になっているシートからも抽出を行います。

PPTのノート

PPTのノートを読み込むかどうかを選択できます。
デフォルトは「読み込む」です。
「読み込まない」を選択すると、ノートの内容は無視されます

セグメンテーション

抽出結果を文単位で分割(セグメンテーション)するかどうかを選択できます。
デフォルトは「分割する」です。

「分割する」を選択した場合、さらにセグメンテーションのための正規表現を指定することができます。
デフォルトでは句点、半角ピリオド+半角スペース、感嘆符(全角/半角)、疑問符(全角/半角)で分割するようになっていますが、
セミコロンでも分割するなど、より細かな設定が可能となります。
正規表現での分割については正規表現ラボ
実際に分割される結果を見ながら設定するのがお勧めです

正規表現による除外

正規表現を用いて抽出結果に組み込まない部分を選択できます。
デフォルトは「除外しない」です。

「除外する」を選択した場合、さらに除外判定のための正規表現を指定することができます。
数字や記号、英語のみといった、翻訳に関係のない部分が大量に含まれている原稿の準備作業がより効率的になります。
正規表現での分割については正規表現ラボ
実際に分割される結果を見ながら設定するのがお勧めです

CATOVIS LS

MS Office Wordと接続。軽量型でWYSIWYGを実現