Wikipedianの強い味方 編集に特化した校正AI「ORES」

莫大な記事の編集文章を効率よくチェック

「Wikipedia(ウィキペディア)」は非営利のWikimedia財団が運営する「オンライン百科事典」です。 記事内容のすべてが正確とは限りませんが、すぐに知りたい事柄を調べるには最適。無料で使えることもあり、パソコンやタブレット、またスマートフォンを使っている人なら、誰もが一度はお世話になったことがあるでしょう。 「Wikipedia」は多言語で展開されており、現在、約290言語(2015年12月1日時点で291言語)が開設されています。 これに伴う記事数は膨大なもので、たとえば英語の純記事数は5,021,182、日本語だけでも993,525(共に2015年12月1日現在)。加えて1日に50万件の編集が行われているそうです。 なお、通常の辞書とは違い、記事の編集しているのは専門家ではありません。「Wikipedian」と呼ばれるウィキペディアのボランティア執筆者・編集者を中心に、誰もが内容編集することができるのです。そのため中には内容にかかわらず、意味の通らない文章や誤字脱字を含んだ記事も見受けられます。 記事内容の品質低下を防ぐため、「Wikipedia」では編集チェックができる新しいAI(人工知能)を導入しました。それが「ORES(Objective Revision Evaluation Service)」です。

Wikipediaにおける改竄・捏造駆逐と「ORES」の使用例

Wikipediaの人工知能活用の歴史

「ORES」導入以前から、 Wikipediaでは「Vandal(英語で破壊者、日本でいう「荒らし」)」や改竄・捏造を駆逐するための措置を講じてきました。 そのひとつが「AVB(AntiVandalBot)」です。 これは比較的新規の投稿や編集内容を対象に、簡単なルールに基づいて荒らしを判定。改竄以前の内容へ自動的に修正する仕組みを持っています。 ただし、AVBは明らかに荒らしと判断できるケースにしか対応できません。そのため記事内容が曖昧、微妙な場合は人間のチェックが必要でした。 その後、WikipediaはAVBを進化させた「Cluebot」を開発。さらに機械学習により、荒らし判定精度を高める能力を搭載した次世代バージョン「Cluebot NG」が導入されます。 「Cluebot」も「Cluebot NG」は微細かつ巧妙な荒らし行為を完璧に駆除することはできませんでしたが、これらは執筆・編集に携わるWikipedianの大きな助けとなったのです。

ORESは何が違う?

今回の「ORES」は編集された文章が「文法や文脈的に正しいか」を点数化し、正否(trueまたはfalse)を検出するものです(ただし「記事内容」を判断するものではありません)。 既存のAI技術を採用したプログラムで、オープンソースとしてAPIが公開されています。 使い方は簡単で、URLに「http://ores.wmflabs.org/scores/(言語)/(モード名)/(編集ID)」と入力して開くだけ。記事編集の品質低下を判定する「damaging」、編集がきちんと行われたかを判断する「goodfaith」モードなどを有しており、「true」の数値が高ければ問題ありませんが、「false」が優勢だった記事は再度人力での確認作業を行います。 その後、必要に応じて記事のリビジョンを差し戻し、編集者にフィードバックすることで、記事が削除された理由などを知らせることができます。また、Wikipedian自身がチェックツールとして使うことも可能です。

期待される日本語対応

「ORES」は現在、英語、スペイン語、ドイツ語、フランス語など、14言語のWikipedia記事に対応しています。まだ日本語版はリリースされていませんが、純記事数で13位、総編集数が7位であるため、導入される可能性は高いといえるでしょう。 実のところ、Wikipediaでは以前にもAI を搭載した編集ツールをいくつか導入しています。ところが、それらのツールは使いづらく、新人Wikipedianにはあまり利用されなかったそうです。 そのような点も踏まえ、点数を用いたシンプルな仕様になった「ORES」。ぜひ早期の日本語バージョン導入をお願いしたいところです。

ORES導入を視野に入れておこう

基本的には「Wikipedia」記事編集に用いられている「ORES」ですが、web制作の現場にも役立つ可能性があるかもしれません。 ORESはオープンソースのAPIとして提供されていることもあり、もし、大量の文章をチェックするようなケースに遭遇した場合、文章校正などの業務にも応用できるからです。 そのような観点からも、Webディレクターにとっても見逃せないテクノロジーになりそうですね。