【Memsource】正規表現フィルタを活用する

Memsourceはとてもシンプルで便利な翻訳支援ツール(CATツール)で、私も日常的に使用しています。

しかし、翻訳支援ツールの宿命と言うべきか、改行などでレイアウト調整された元原稿には苦労しがちです。

1文字だけのセグメントは他のセグメントへの副作用もあり得ますし、
何より翻訳資産として見た時の価値が下がってしまいます。

例えばこんなセグメント。

安全性、という文字を表内で縦書き表示するために改行が使われたことで、
無駄の多いつくりになってしまっています。

こうしたセグメントは結合してしまうのが良いのですが、
大量にあるとフィルタで検索できないと不便ですね。

この例を含めて、正規表現を活用してフィルタをかける事例をいくつか紹介します。

正規表現をONにする

まずはフィルタのオプションで、正規表現をONにします。

ここをクリックしてチェックマークを入れると、フィルタで正規表現が使えるようになります。

なお、正規表現は便利な反面、通常のフィルタリングがしにくくなることもあるため、
使い終わったらOFFにしておくことをお勧めします。

1文字だけのセグメント

^\S{1,1}$

まずは冒頭でも紹介した事例です。\Sとすることで、スペース以外の文字を検索対象としています。

波括弧内の数字は上限と下限なので、これを置き替えることで、文字が増えても対応できるようになります。

例:^\S{1,2}$ 1~2文字だけのセグメント

ひらがな・カタカナの訳文残りを検索

[ぁ-んァ-ヶ]

訳文中に消し忘れで残ってしまっている「ひらがな」と「カタカナ」を検索できます。

ハングルの訳文残りを検索

[가-힣]

こちらは韓国語から翻訳する際に使える正規表現です。

全角英数字や記号などを検索

[A-z0-9()%.!?]

上記は一例です。[]内に検索したい記号を足していけば検索対象が広がります。

全角記号は基本的にエスケープしなくていいので楽ですが、
半角記号を検索対象に含めたいときは、適宜エスケープが必要ですのでご注意

先頭・末尾のスペース

^\s

これはQAでも検出できますが、一件ずつクリックして確認するよりも、
フィルタで一覧表示して対処してしまったほうが早いと思います。

同じく末尾のスペースは

\s$

ですね。

重複したスペース

\s{2,}

こちらも同様で、あらかじめフィルタ表示で処理してしまうことで、QA効率が上がります。

原文は句点で終わるのに、訳文は句点で終わっていないセグメント

原文:。$ 訳文:[^。]$

これで記述の統一感を改善することができます。原文と訳文のテキストを反対にして検索するのもいいですね。

カンマで位取りされた数字・されていない数字

\d,\d{3}

\d{4}

4つの数字が続いていればカンマなし、そうでなければカンマありと判定できます。

ローカライズなどで、数字の表記を変更する必要がある際に重宝します。

検索や置換も

Memsourceにはフィルタのほか、検索と置換でも正規表現を使用できます。

式を活用したりすれば、ここに挙げた事例の解決もよりスムーズになります。

ほかにも「こんなパターンを検索したい」というご要望があれば、ご連絡ください!

CATOVIS LS

MS Office Wordと接続。軽量型でWYSIWYGを実現