リアルタイムAI字幕生放送を見て思う、正確な字幕の難しさと、AbemaのAIの凄さから考える、仕事の効率をどう上げて必要な仕事を行うか?

2019.10.19 Saturday

0

    最近、仕事の関係で、AIでの文字おこしを探していました。

    これも、仕事の効率を上げるために必要なことだと考え、探していたのですが、

     

     

    各社いろいろなものを出してはいます。

    会議用リアルタイム文字おこしや、録音用、スマホアプリまで。

     

    youtube や skypeなど 既に字幕表示技術があったので、

    初めはもっといいものがあると考えていたのですが、

     

    ただ、いろいろ調べ、体験したりする中で、

    自動文字おこしの精度、内容を見て結局は人の手が確実か?

    と思ってしまいました。

     

    なぜ、ダメだと思ったか、大きなポイントは、3つです。

     

    ・前後の文章からの判断が必要なため、文字おこしした文章の意味が分からない。

    ・人の声によって左右され文章の出来上がりにかなり差がある

    ・文字おこしをする中で、最終的にチェックをする段階で再度聞く必要がある

     

    そして、それをさらに難しくする録音条件

    雑音が多く、隣の人との声が入ってしまったり、

    文章だけだと、理解が難しいと感じました。

     

    そのため、結局記事を作成する、利用者が必要な部分を文字おこししたほうが早い。

    と考え、AIでの自動文字おこしは断念しました。

     

    ところが、先日ひさしぶりにAbemaTVを見る機会が。

     

    その中で気になったのが、ニュースのAI自動文字おこしです。

    これが、凄い!何がすごいかというと。

     

    ・ニュースという音声がきれいな部分もあるかと思いますが、

     しっかりと、文章になっていて、誤字脱字がほぼない

    ・誤字脱字があったとしても文章から再構成している。

    ・音声の必要ない部分(VTRなどの雑音)は自動で省く

     

    スタジオの音声や、マイクなど、条件はいろいろとあるのだと思いますが、

    ここまでの精度があれば、確かに実用をどんどんしていくべきだと思います。

     

    いろいろ調べていく中で、Abemaのシステムは「AI(あい)ポン」というもので

    https://av.watch.impress.co.jp/docs/news/1157579.html

    ”「AI(あい)ポン」は、Googleの音声認識テキスト変換サービス

    「Cloud Speech-To-Text API」をベースに、LASSICによる

    「LASSIC Speech Recognition」を活用”

     

    googleの技術を活用していて、LASSICは日本(鳥取)のシステム会社さんです。

    テキスト変換と、感情解析技術によって

    ここまでの精度を出しているようです。

     

    いままで、地上波ではデータ放送で文字おこしをしていますが、

    ご存知の方も多いと思いますが、これは人の手の作業が入っています。

    専門のキーボードもあるくらい

    https://www.vingle.net/posts/953021

     

    ただ、やはりそこは人の手での入力です。

    文字が遅れて出てくると感じたことはないでしょうか?

     

    正確性を求めた結果だとは思いますが、、、

    『テレビの音が聞こえないから、便利だけど、画面とずれ過ぎるのは何とかしてほしい』

    と字幕を見ていた最近耳が聞こえづらくなってきた、祖母がぼやいていました。

     

    まだまだ、日々のAI学習で、精度を上げることができるようなので、

    地上波で、リアルタイムAI字幕生放送を見ることも今後多くなるのではないでしょうか?

     

    この、リアルタイム字幕の例は、企業が仕事の効率を求められる中、

    働き方改革で、効率化される仕事の一つだと思います。

    本当に必要とされる仕事は何なのかを考えるいい事例なのではと思います。

    コメント
    コメントする