Podcastle Night

January 11th, 2007

Podcastle のはなしを聞きに Podcastle Night に行ってきました。

Podcastle のはなしは面白かったし、その後いろいろなひとと話せたのも良かった。

後藤さん

Podcastle が開発期間6ヶ月というのはすごい。もちろん音声認識まわりは前からの蓄積があるし、なにより関わってる人達がスーパーすぎるというのがあるので「Rails は Java の……」みたいなはなしにはならないだろうけど。あと、スーパーな人達は数 hop でつながるものなんね。

  • searching, reading and annotating podcasting.
  • 開発者同士は qwikWeb + Skype でコミュニケーション。実は全員が会ったのは今日が初めて。
  • 2006年の1月18日に、後藤さんと緒方さんで「いまの音声認識研究の最先端のデモとなるような、キラーアプリを作りたい」ということになり「Podcast の検索」という案が浮かぶ。
  • 7月3日には、そこに eto さんが加わる。
  • 7月12日のミーティングで arai さんと、arai さん経由で brazil さんが加わる。
  • 8月にはプロトタイプが出来て、12月1日には一般公開となる。
  • 現在は学会発表と口コミがベース。使ってほしいけど、利用者が殺到すると対応しきれない部分があるので、商業媒体とかにばーっと載ると困るかも。

緒方さん

よい UI のためには UI 部分以外の高い技術が必要なんだな、と思った。候補表示とかも、利用者からだと「ちょっと良い」だけど、研究者からみると「すごく大変」なようだ。音声認識研究への愛もひしひしと感じた。

  • 同じような先行システムとして Podscope, Podzinger がある。
  • Podcastle の特徴は大きく3つ
    • 日本語である。
    • 検索語の周辺だけではなく全文を文字列として表示できる → Podcast が googlable になる。
    • 編集、というかアノテーションがある。
  • アノテーションによって訂正された情報は学習され、その後の認識精度が向上する。
  • 音声認識は使えるのか使えないのか謎の技術だと思われがちだけど、使いようによってはもう使えるところもある。
  • 一般に市販されているような音声認識ソフトウェアはリアルタイム性を重視しているけど、研究では精度を重視しているものが多い。
  • Podcastle は音声認識技術の啓蒙でもある。
  • 誤認識混じりだろうが、とにかくまず公開してしまって、そこを訂正してもらうことで、結果として認識精度の向上につながる。
  • 音声認識には言語モデルと音響モデルのふたつが必要。
  • 言語モデルは N-gram で大量の文章から学習させることが必要。知らない単語は認識できない。
    • Podcast は時事ニュースや最近の話題が多いので、Yahoo! ニュースと Google ニュースから学習させている。
  • 音響モデルは隠れマルコフモデル。
  • 訂正は利用者に新たに書き起こさせるのではなく、候補からの選択。この共通の文節区切り下で候補を表示するのは簡単ではない。confusion network というのを使っている。
  • あくまで検索ではなくソーシャルアノテーションという認識。

arai さん

開発期間短い!それでいて REST っぽい感じとか、clean に出来てそうなところも気になる。

  • 構成は Rails + MySQL。4日くらいで動くようにはなった。
  • 1分の MP3 の処理時間がだいたい10分くらいかかるので、音声認識部分は十数台のサーバーを使って分散処理をしている。
  • やりとりは HTTP で REST っぽい感じ。
  • 音声認識部分がバージョンアップした場合、人力で訂正された箇所以外は再認識されるようになっている。

brazil さん

Shibuya.js のときとはちがって、概念的なはなしではなく技術紹介なんだけど、やっぱり発表がうまいしきれい。カメラ機能のデモが「カメラに動きがあると犬が吠える」で犬の声を数種類録音してみたりとか、フォント一覧のデモの色や音のつけかたとか、細かいところでセンスの良さみたいなものが光っていたように思う。jsh も良さげ。

  • 実はキーボード (Ctrl + ← / Ctrl + →)で再生速度は変更できます。訂正作業は遅く再生、検索は早く再生と使い分けられる。
  • MochiKit と FlashProxy について話そうと思ったけど、MochiKit は長くなりすぎたので全部カット。FlashProxy について話します。
  • Web 上で音声を再生する方法は主に三つある。
    • Windows Media Player: IE のみなので扱わず
    • QuickTime: Podcastle ではこれが主力
    • Flash
  • QuickTime はなにもせずとも embed 要素に JavaScript からアクセスできるメソッドがいろいろついてくる。
  • Flash
    • JavaScript では出来ないこと (カメラ、IME の制御、クライアントサイドへのデータの保存など) がいろいろ出来て面白い。
    • JavaScript とのやりとりには ActionScript 2 からできた ExternalInterface をつかう。
    • ExternalInterface の addCallback は便利だけど不自由なところがあって面倒くさい → FlashProxy
  • Flash という古くて強力なものが、FlashProxy を得てオープンになった。
  • glue としての JavaScript。

eto さん

さすが Wiki 小話っぽくきれいにまとまった感がある。それが出来る「誰か」はどこに? → Web に!というのが良かった。Web 2.0 の未来は明るいです。

発表資料: 集合知を活用したWebシステムとしてのPodcastle

  • そもそも Podcastle は Wiki なのか?
  • 検索結果を人力で改善できる検索エンジンである。最近だと Jimmy Wales の Wikiasari もそういう傾向。
  • でもそれは珍しくはない。CDDB, ソーシャルブックマークのタグ、Japanize など。
  • Amazon MTurk: 流行っていない。じぶんがうれしくなる仕組みが「便利」ではなく小銭なのが原因では。
  • Wikipedia: 知恵の集合であることに意味がある。いってしまえば百科事典にならなくても良い。
  • 音声認識は人間ですら 100% はできない。知らない単語は聞き取れない。
  • 機械には出来なくても「誰か」には出来る。その誰かはどこかにはいるのだけど、それをみつけだすのが Web の仕事。
  • 今後
    • Podcastle で最小のフィードを出して Plagger で複数種類を生成したい。
    • microformats でルビをマークアップしてもらって、それをクロールしたい。

質疑応答

  • 言語モデルと音響モデルさえ作れれば英語や中国語にも対応できる。
  • テープ起こしのようなプライベートな用途にも対応したい。
  • 著作権まわりで怒られたりは、まだない。
  • 「あー」「えー」のようなものが文章に書き起こされているものは、あるにこしたことは無いけど、利用者優先なので消してしまっても良い。そのくらいで深刻な影響が出るシステムではない。

懇親会

  • dotimpact さんと nagayama さんには久しぶりに、櫛ケ浜さん youhei さんには初めてお会いする。
  • Web+DB Press のかた、Wikipedia のかた、Selenium IDE のかたにもお会いして名刺をいただく。名刺もらったひとには moo のカードあげたりしてました。
    • われながら moo のカードは対処に困る感じのサイズだと思った。
    • ゼロベースの名刺は標準サイズを守りつつびっくりする感じで良い。
  • youpy さんにもお会いしたかったのに帰っちゃったらしい。沖電子にショベルカーで入場でもしないと会えないのかも。
  • FireBug はとても良い。お金払っても良いくらい。
  • Creammonkey に GM_XHR とかほしいよね、というはなしをされた。セキュリティとか怖いので弱腰だったんだけど「高木さんに怒られてはじめて一人前」らしいのでまず実装だけしてみよう。
  • いまどきの Web に対応できるデザイナは引く手あまたらしい。

二次会

  • 幹事 2.0 な店との交渉によって朝まで個室を確保。始発が動き出すあたりまでずっと飲んでた。
  • あぶないはなしが多いので書かない。
  • yomoyomo さんがいっぱい
  • Perfume
  • 優よりそら
  • フォトライフをみて本物だと思った
    • オリコンからロリコンまで
  • spam 対策をしたら知り合いがひっかかった
  • nagayama x ma.la
  • brazil さんにデザインをほめられた!
  • なにを作ったかが重要。プログラムを書くのと、一つのソフトウェアを書くのとのあいだには明らかな違いがある。プログラミングがすごくできるけど、それで何を作っているのとなると謎なひとというのは存在する。
  • いろいろな人の話に、 brazil さんがさかんに「それはすごいわかるなー。」「おもしろいですよ。いや、それすごいおもしろい。」と言っていたのが印象的だった。