英語トランスクリプト取得方法

トランスクリプトとは「文字起こし」のことですね。日本語字幕付けをする際、元動画の英語文字起こしが無いと非常に困ります。英語という言語の場合、その発音から単語のスペルを得るのは(少なくとも私には)至難の技なので、どうしても元の英語動画の「英語文字起こし」が必要になるわけです。

YouTubeにある英語の動画の場合には、おおよそ英語文字起こしがあります。字幕ボタンを押せば出てきます。

これはYouTubeによるサービスとみなすこともできるのですが、その一方でYouTubeの検閲システムの一部でもあります。つまり、話している内容を検出し、特定のキーワードに反応するAIシステムで検閲すべきか否かを決めているわけです。ですから、YouTubeという検閲システムにはこの機能が必要なのです。

しかし、最近はあまりにYouTubeの検閲がひどすぎて、最初からYouTube以外に動画アップされるケースが増えてきました。これらのYouTube以外の動画サイトでは、YouTubeのような英語トランスクリプト表示機能はありません。どうにかして英語トランスクリプトを取得しなければなりません。

ただし、単に動画で話している内容の英語文字起こしではなく、可能であれば、SRTあるいはSBV形式の「タイミング付きの文字起こし」が欲しいのです。これがあると、日本語字幕付け作業がぐんと楽になります。以下のようなものです。

1
00:00:00,030 –> 00:00:04,270
Some people say it’s not even a vaccination,
it’s it’s a genetic experiment.

2
00:00:04,290 –> 00:00:08,940
What do you think? Yeah, so it isn’t doesn’t
really meet the criteria, but I suppose there

3
00:00:08,940 –> 00:00:10,820
are three waves of adverse events, right?

Speech to Text

Speech to Text

IBMのワトソン研究所が無料で提供しているものです。音声ファイルをドロップすると、その内容を文字起こししてくれます。無料で使えるものなのですが、欠点としては、

  • 動画ファイルは受け付けてくれず、あらかじめそこから音声のみを取り出してからドロップする必要がある。
  • その音声の通常の再生速度で文字起こしするので、30分の音声であれば、30分待たなければいけない。
  • タイミング情報が無い。単なる文字起こしのみ。

他は良いのですが、最後の点が何とかならないかと思います。例えば、1時間の動画の場合には、膨大な量の文字起こしになるわけですが、動画中のある時点の音声の文字起こしがどの部分になるのか、わかりづらいですね。これさえ何とかしてくれれば「使える」んですが。。。

translitt

translitt

1分0.07ドル、一時間4.2ドルで英語動画の文字起こしをしてくれます。面倒なところとしては、他の有料サイトと異なり、一つの動画ファイルの文字起こしをするごとに支払い手続きのあることです。

他のサイトでは、あらかじめXXドル支払っておいて、つまりプリペイドしておいて、使った分だけそこから差し引かれる形になってます。

Sonix

Sonix

標準プランでは一時間10ドルで他よりも高価ですが、試してみたところ、これが最も正確のようでした。

Gglot

Gglot

標準プランでは一時間6ドルです。動画ファイルのアップロードが非常に遅く、文字起こしも待たされます。しかも、背景に音楽などがあると、滅茶苦茶な文字起こしになりますね。これを継続して使うのは無しかな。。。

 

コメント