テキストの抽出
ファイルのアップロード
原文ファイルを左側の 「ここに原文ファイルをドロップしてください」 とあるところにドロップします。
ファイルがドロップされると、Word(docx)/Excel(xlsx)/PPT(pptx)のファイル名が表示されます。
続けてファイルをドロップすると、一覧に追加されていきます。
ファイルの削除
各行の × をクリックすると、当該ファイルを一覧から取り除くことができます。
全ファイルを取り除きたいときは、一覧の右上にある 「リセット」ボタン を押してください
抽出の実行
アップロードができたらアラインを開始します。
下側にある 「抽出実行」ボタン を押してください。
抽出が完了すると、結果ファイルのダウンロードが始まります(Result.txt)。
抽出ファイルについて
抽出された文字列はテキスト形式(.txt)でダウンロードされます。
抽出結果にはファイル名や一定の 区切り記号(_@λ_ PARAGRAPH _λ@_など) が入っています。
文字数カウント
抽出が完了すると文字数カウントも実行できるようになります。
カウントをしたい場合は文字数カウントを押してください。
ファイルごとの文字数や、似た文が何度も出現している場合はその割合を計算します。
カウント結果は「TSV」という形式でダウンロードされます。
TSVはタブ区切りテキストのことで、Excel等で開くと表組みとして表示することができます
なお、重複の割合に応じて文字数を割り引く場合(WWC:Weighted Word Counts)、
オプション設定で段階に応じた割合を設定できます。
オプション項目について
オプションの表示
ファイルのドロップゾーンの右側に i というアイコンがあります。
このアイコンをクリックすると、抽出の方法を設定することができます。
以下でそれぞれの内容について紹介します。
出力ファイル名
ダウンロードされる結果ファイルの名前をあらかじめ決めておくことができます。
一番上のファイル名を使用するをONにすると、
「抽出対象ファイルの一番上のファイル名.txt」というファイルが生成されます
Wordの修正履歴
修正前と修正後から選択できます。
デフォルトは「修正後」です。
「修正前」を選択すると、修正履歴がない状態(初版)のテキストを抽出します。
Excelの非表示シート
Excelの非表示シートを読み込むかどうかを選択できます。
デフォルトは「読み込まない」です。
「読み込む」を選択すると、非表示になっているシートからも抽出を行います。
PPTのノート
PPTのノートを読み込むかどうかを選択できます。
デフォルトは「読み込む」です。
「読み込まない」を選択すると、ノートの内容は無視されます
セグメンテーション
抽出結果を文単位で分割(セグメンテーション)するかどうかを選択できます。
デフォルトは「分割しない」です。
通常、CATツールでは文単位で翻訳や類似文の適用を行うため、アラインモードでは基本的に分割を行いますが、
抽出のみの場合は段落・セル・テキストボックスといった単位で改行されます。
「分割する」を選択すると、文単位で改行されたtxtファイルを生成することができます。
「分割する」を選択した場合、さらにセグメンテーションのための正規表現を指定することができます。
デフォルトでは句点、半角ピリオド+半角スペース、感嘆符(全角/半角)、疑問符(全角/半角)で分割するようになっていますが、
セミコロンでも分割するなど、より細かな設定が可能となります。
正規表現での分割については正規表現ラボで
実際に分割される結果を見ながら設定するのがお勧めです
正規表現による除外
正規表現を用いて抽出結果に組み込まない部分を選択できます。
デフォルトは「除外しない」です。
「除外する」を選択した場合、さらに除外判定のための正規表現を指定することができます。
数字や記号、英語のみといった、翻訳に関係のない部分が大量に含まれている原稿の準備作業がより効率的になります。
正規表現での分割については正規表現ラボで
実際に分割される結果を見ながら設定するのがお勧めです
重複による割合
一定以上似た文がファイル内・ファイル間にあった場合、
その部分を割り引いて文字カウントできるようになります。
重複の判定は分割の結果によるため、重複を考慮してカウントしたいケースでは、
セグメンテーションの部分で「分割する」を選択するのがお勧めです。

MS Office Wordと接続。軽量型でWYSIWYGを実現