関連議論(はてなダイアリー評議会議題5号- スク)
id:keywordmaniac:20051105, id:keywordmaniac:20051106, id:keywordmaniac:20051107, id:keywordmaniac:20051108

誤爆回避

キーワードには
はてなダイアリーにおいて、誤った自動リンク(いわゆる「誤爆」「ミスヒット」)を回避すること。防爆とも。 具体的な対処法として、
  • 誤爆が起こっているキーワードの文字列を含むキーワード(被誤爆キーワード)を、新たなキーワードとして別途登録する
  • 鈎括弧(「」)付きで再登録する などがある。
と書かれているが、そもそもなんのために回避するのか、という目的から考えると二つの立場がある。それぞれの立場から、対処法を考えてみる。
  1. 日記中に意図しないリンクを発生させない
  2. 「含む日記」中のノイズをフィルターする
1番の立場からは、対処法としては
  • リンクスコアを下げる、日記の閾値を上げる
  • 誤爆キーワードに優先してリンクを生成するような新たなキーワードを登録する
  • キーワード削除、「」付きへの移行
といった手段がある。基本的にはリンクスコアの利用がメインになると思われる。そもそも文中のその単語にリンクを作りたくないという考え方と正しい説明にリンクしたいという考え方があるので、後者の立場による「誤爆回避キーワード」という呼び方は一面的である。 2番の立場からは、
  • 誤爆キーワードに優先してリンクを生成するような新たなキーワードを登録する
  • 新規に導入された複合検索を活用する
といった手段がある。こちらの立場からはリンクスコアの操作は意味がない。 どちらの立場からも誤爆回避キーワードの登録がなされるケースはありうる。ただ、1番の立場から登録するならば、それなりの解説文はつけてほしいし、ましてや一般的な動詞の活用形(+助詞、助動詞)とか文節の一部だけとか、辞書の表題語にならないような誤爆回避専用キーワードの登録はやめてほしい。 2番目の立場から、回避語を一つ登録することで誤爆率がどのくらい下がるかという限界効用が非常に大きいことで誤爆回避専用キーワードが許容されるということはあるだろう。このへんはデータを揃えた方がよさそう。また、そもそも回避語登録によって元の「含む日記」リストの精度があがったとして、そのリストにどれだけ利用価値があるのか、利用者がいるのか、という観点も必要である。 ただいずれにしろ、誤爆回避専用キーワードや、説明文がいつまでも空白だったり貧弱だったりほとんど利用されない事実上の回避専用キーワードは、他のキーワードのリンク機能を阻害するためのネガティブなキーワードであって、無闇に登録すべきものではない。

同項目後段

善意であってもチェーンメイルはスパム、という考え方に準じれば誤爆による広報というのも問題があるのではないでしょうか。

誤爆回避の検証

誤爆回避語を言及数の多い順に並べ、回避語を一つ登録するごとに下がっていく誤爆率を逆進誤爆率と定義、回避効果を測定。

なっち

キーワード 含む日記件数 逆進誤爆 改善率
(合計) 2,466 - -
なっち(正解) 272 - -
なっち(誤爆 12 89.0% -
なっちゃ 2,032 37.3% 51.6%
なっちま 126 11.7% 25.6%
なっちょ 10 8.7% 3.0%
なっちゅ 7 6.5% 2.2%
なっちった 7 4.2% 2.3%
なっちってる 0 4.2% 0.0%
期間:5月14日〜5月19日 逆進誤爆率は、誤爆回避語を一つ登録するごとに下がっていく誤爆率を示します。「なっち」だけの場合の誤爆率は89.0%、「なっちゃ」を登録するとそれが37.3%にまで下がります。更に「なっちま」を加えると誤爆率は11.7%まで下がります。回避効果はこの二つが劇的に大きいと言えるでしょう。逆に、これ以上追加しても、さほどの効果は期待できなさそうです。 わずか5日半の調査ですが、キーワード統計グラフを見れば基本的な傾向は期間を広げてみてもそう変わらないようです。回避しきれていない誤爆がどのくらいかはグラフからでは読み取れませんが。 5日ちょっとで二千の日記を集める「なっちゃ」のリストに積極的な意味がないということをどう考えるかという問題は残りますが、「なっちゃ」「なっちま」の回避効果が高いことは明らかです。 ...

さゆえ
キーワード 含む日記件数 逆進誤爆 改善率
(合計) 256 - -
さゆ(正解) 224 - -
さゆ(誤爆 6 12.5% -
さゆえ 26 2.6% 9.9%

期間:5月14日〜5月19日

対象期間で偏りがあるのかもしれませんが、「さゆ」はもともと誤爆率は低いようです。「なっち」系の回避語に比べると少ないですが、「さゆえ」は10%程度の回避効果があるようです。 調査対象期間が短いので予備調査の域は出ていないと思いますが、とりあえず誤爆率の改善が10%というのは一つのメルクマールになるのではないでしょうか。
まったり
キーワード 1日当たりヒット数(概数) 逆進誤爆 改善ポイント数
(合計) 112 - -
まったり(正解) 63 - -
まったり(誤爆)9 43.8% -
しまったり 24 28.4% 15.3%
始まったり 5 24.1% 4.3%
止まったり 5 19.2% 4.9%
決まったり 3 16.0% 3.2%
詰まったり 2 13.2% 2.3%
1 12.5% 1.2%
さすがに「しまったり」の次からはちょっとなあ、という気が。「なっちま」「さゆえ」には効率的に劣るような。

誤爆のたのしみ、または再発見

考えるきっかけ↓ [観]はてなブックマークの謎 特に蟹とは関係がない記事なのに、キーワード<かに>が抽出されているために、カテゴリが<動植物>になってしまっているという指摘。 私も少し前から、「これ、どこが<かに>?」と気になっていました。ほかに<とら>も気になっているんです。

(中略)

きっかけとなった記事にあるchasenの解析結果とはてなブックマークのキーワードを見比べて思ったのですが、はてなブックマークのキーワードはすべて名詞なわけです。<かに>がまず抽出されてしまうのも、見た目の区別がつかないから。同じような理由で<とら>も抽出される。でも<あり>は抽出されないようです。 chasenにも名詞「かに」はあります。ただ、まず<か>を含んだ語形(「とかに」の場合で言うと「とか」)が抽出されてしまうので、誤って<かに>が抽出されることはないのです。

結論

はてなキーワードは名詞だけを抽出する  →名詞以外に含まれる<かに><とら>が誤って抽出されてしまう

提案

2文字ひらがな名詞は抽出対象から外した方が、ノイズも少なく、カテゴリ分類の精度も上がると思うのですが、いかがでしょう?

関連:http://d.hatena.ne.jp/yumizou/20060528/1148813736