社内共有会で使用した RedPen 資料と進捗
伊藤(takahi_i)
ATL の伊藤です。
最近行われた社内での技術共有会で RedPen について紹介しました。以下そのときに使用した資料となります。
RedPen は ATL で開発している文書の自動チェックツールです。少し前の ATL ブログ記事で本ツールの開発について触れましたが、現在も正式版のリリースに向けて開発を続けています。
本稿ではリリースに同梱予定の機能について簡単に紹介いたします。
簡易サーバ
RedPen のコマンドツールとしての使い方については以前のブログ記事で触れました。コマンド以外の利用手段として RedPen の簡易サーバを提供する予定です。実はすでにサーバ機能は同梱され、動作する状況です。では RedPen サーバを動作させてみましょう。
まずは、RedPen をダウンロード、ビルドしてください (Git と Maven が必要になります)。
1 2 3 4 5 |
$ git clone git@github.com:recruit-tech/redpen.git $ cd redpen $ mvn install |
次に server ディレクトに移動してサーバを起動します。
1 2 3 4 |
$ cd redpen-server/target $ java -jar redpen-server.war -c ../../redpen-app/sample/conf/dv-conf-ja.xml |
これで RedPen サーバが localhost の 8080 ポートで起動しました。お持ちのウェブブラウザで http://localhost:8080/ にアクセスすると、下記のページがみえます。
ページ上の入力フォームに以下の文を入力して、Submit ボタンを押してください。
1 2 3 4 5 6 |
最近利用されているソフトウェアの中には複数の計算機上で動作(分散)するものが多く存在し、 このような分散ソフトウェアは複数の計算機で動作することで大量のデータを扱えたり、高負荷な 状況に対処できたりします。本稿では,複数の計算機(クラスタ)で動作する各サーバーを 「インスタンス」と呼びまます。たとえば検索エンジンやデータベースではインデックスを複数の インスタンスで分割して保持します。このような場合、各インデクスの結果をマージしてクライアント プログラムに渡す機構が必要となります。 |
すると、以下のようにチェック結果が出力されます。
上記の結果より、RedPen 入力中に文長が長すぎたり、句読点の不一致があることが確認できます。
デフォルト辞書
RedPen が提供する一部の Validator は辞書を使って入力文書をチェックします。たとえば、InvalidExpression Validator は入力文に含まれる、所謂よろしくない表現を抽出します。不正な表現をいちいち追加する作業は、自分で使ってみた結果かなり大変なため、デフォルトの辞書を提供することにしました。
たとえばここで日本語のデフォルト不正表現リストがありますが、もう少し拡張したいと考えています。
Validatorの追加
現在 Validator の追加を行っています。以下の Validator が提供される予定です。
まとめ
本稿でははじめに社内要求会で利用したスライドを紹介しました。その後、今後搭載サポート予定の機能に<ついて簡単に紹介しました。 今後もゆっくりと開発が続いてゆく予定ですので暖かく見守っていただければと思います。どうぞよろしくお願いいたします。