![]() |
|||||||||||||
|
|||||||||||||
|
|
|||||||||||||
|
|
2003年1月20日 | |||
|
本格業務用で業界初 音声認識によるノンリニア文字おこしソフト「mospy」を新発売 |
||||
|
||||
|
【要旨】
ダイキン工業株式会社 電子システム事業部(本社:大阪市、社長:北井 啓之)は、音声認識技術とノンリニア映像技術を応用してビデオテープからの文字おこしを行うソフトウェア「mospy(モスピー)」を開発し、2003年3月より販売を開始します。 文字おこしは、放送局における番組制作、企業や教育機関における講義、会議などの議事録作成のために音声をテキスト化する作業として日常的に行われています。しかし、従来の文字おこしは、ビデオテープやオーディオテープを専用デッキで再生、一時停止、巻き戻しを何度も繰り返しながら、ワープロなどでテキスト及び時間軸情報(タイムコード)を打ち込む作業が必要で、映像素材の5倍程度の時間を要する大変面倒な作業でした。 「mospy」は、映像やコンピュータの専門家でなくとも、映像とタイムコードのパソコンへの取り込みから、ビデオ再生コントロール、タイムコードに連動したテキスト作成まで簡単に行えるソフトウェアです。 ビデオテープから映像・音声・タイムコードをパソコン内に取り込み、オペレータがパソコンの画面上でビデオを見ながら、マイクでビデオ音声を復唱することで音声認識され、テキストが自動入力されていきます。パソコンへ取り込まれた映像はデジタル化(MPEGもしくはDV−AVI)され、ファンクションキーを使って、再生、一時停止、巻き戻し、タイムコード取得などが簡単に行える上、キーボードによるタイプ入力の代わりに音声認識でテキスト入力ができるため、従来の作業に比べ最大70%の効率化が図れます。 これらの機能により、文字おこし業務だけでなく、テレビ番組、あるいはインターネット映像向けの字幕データ作成や映像ライブラリーの付加情報データ作成などが効率化できます。 テレビ番組における字幕放送は、総務省が聴覚障害者の情報アクセス機会均等化を推進するとして、その普及に注力しています。来年度以降は、在京キー局だけでなくローカル局での推進を幅広く支援できるよう制度を改めるなど、全国的な普及を目指しています。また、一般の放送番組でも訴求効果を高めるために字幕テロップが多用される傾向にあります。今後は放送局にとどまらず企業、教育機関、官庁などで使われるインターネット映像や講演会映像などにおいても字幕付与の要求が高まると考えられます。 ダイキン工業では、このようなニーズにいち早く対応すべく、テキスト情報付与の効率化、映像との連携性、出来上がったテキスト情報のマルチユース化を重視し「mospy」の開発に着手しました。今後は「mospy」を切り口に、各分野のユーザニーズに合わせて映像制作支援システムやビデオアーカイブシステムなどと組み合わせるSI(システムインテグレーション)ビジネス提案も積極的に行っていきます。 |
|
【mospyの特長】
■ 実績ある汎用音声認識エンジンを組み込み 「mospy」は音声認識エンジンとして既に国内で300万本以上の実績を持つIBMの音声認識ソフト「ViaVoice(ビアボイス)」 の一製品である「ViaVoice with ATOK15」を組み込んでいます。さまざまなジャンルの番組に対応できる高度で汎用的な辞書メンテナンス機能などはそのままお使いいただけます。 ■ ビデオ音声の言い直しにより高認識率を実現 音声認識は特定話者の場合に、より高い認識率を発揮します。「mospy」ではビデオ音声をオペレータが復唱することにより、95%以上の認識率(*1)を実現させます。(*1 エンロール後の認識率) ■ 時系列とともにテキスト情報が付与可能 ビデオやオーディオは時系列を持ち、時間の流れとともに内容が変化していきます。「mospy」はタイムコードを情報として付与することにより、ビデオとテキスト情報を容易に連携することができます。従来の文字おこしで一番苦労していたタイムコードの書き出しがキーボード操作一つで可能となります。 ■ 直感的なユーザインタフェース 入力されたタイムコードとテキストはサムネール(映像から取り出した静止画)とともに表形式で画面に表示されます。 ■ ノンリニアによるビデオ操作 ビデオはパソコンのハードディスクに蓄積されたデジタルデータとなりますので、頭出しが簡単に行えます。(このことをノンリニア編集といいます) 音声を何度も聞き直したり、作業する映像を探し出すために非常に便利です。キーボードのファンクションキーや画面上のボタンへのマウス操作により、簡単に操作することが可能です。 ■ 印刷機能によるカットリスト作成 タイムコード、テキスト、サムネールは印刷出力することが可能です。これは、番組企画段階で必要なカットリストとしても活用できます。 ■ 多用途への適用 ストリーミング映像用字幕データ出力やCSVファイル出力による字幕作成システムへのインポート、ダイキン工業が従来から販売している映像アーカイブシステム「DUOM」へのデータコンバート機能など、文字おこしにとどまらない幅広い機能を包含しております。 【ソフトウェア 予定価格】 ・mospyソフトウェア 380,000円 IBM ViaVoice with ATOK15と同梱USBヘッドフォンマイクを含む ※ 専用パソコンにmospyソフトウェアを組み込んだターンキーシステムも発売予定です。 【販売目標】 初年度 1000本 ※ViaVoiceは日本アイ・ビー・エム(株)の登録商標です。 ※エンロールとは、話者の声質や特徴、音声環境を分析・登録する機能のことです。 |
| 【 mospy操作画面イメージ 】 |
|
|
ニュースリリースに掲載されている情報は、発表日現在のものです。 予告なしに変更されることがありますので、あらかじめご了承ください。 |
|
|||||||||||||||||||
|
|||||||||||||
|
|
| Copyright
(C) 2012 DAIKIN INDUSTRIES, ltd. All Rights Reserved. |
|
|||