2006年10月22日

コンテンツマッチエンジンを自作した

 Googleもすなるコンテンツマッチといふものを、Houndもしてみむとて、したなり。
 というわけで、いまHoundの広告はコンテンツマッチになっている。マッチングのエンジンは私が作った。
 自分で作って初めてわかったことを、いくつか書き留めておく。

 
・広告主を働かせろ
 Googleのコンテンツマッチがよくマッチするのは、アルゴリズムが偉いのではない。広告主を働かせる仕組みが偉い。たくさんの広告主が頭をひねって最大の効果を狙うからこそ、あれほどマッチする。広告主を働かせずにコンテンツマッチするのは、あまりにもつらい。Amazonおまかせリンクがあまりマッチしないと評判だが、よくやっているほうだと思う。
 
・作るには時間がかかる
 私の後に続く挑戦者諸氏に一言。コンテンツマッチエンジンを作るのは、とにかく時間がかかる。あなたか天才プログラマでないかぎり、夏休みの自由研究で挑戦するのはお勧めできない。
 
・形態素解析は不要かもしれない
 マッチング用インデックスはbi-gramで作っている。固有名詞に反応してくれないので駄目そうに思えるが、なかなかどうして、ちゃんと反応してくれる。
 
 なお、このコンテンツマッチエンジンは、来月中にWebサービス(SOAP)として公開する予定である。

Posted by hajime at 2006年10月22日 12:11
Comments
Post a comment






Remember personal info?