ディープフェイク動画の進行 速度は印象的であり、非常に不安です。しかし、研究者たちは、これらの操作されたビデオの「物語の兆候」を検出するための新しい方法を説明しました。これは、ある人の顔を別の人の体にマッピングします。それは平均的な人でさえ気付くであろう欠陥です:まばたきの欠如。
SUNYのコンピュータサイエンス学部であるアルバニー大学の研究者は最近、「In Ictu Oculi:まばたきを検出してAIで生成された偽の顔の動画を公開する」というタイトルの論文を発表しました。この論文では、2つのニューラルネットワークを組み合わせて、「呼吸、脈拍、眼球運動などの自発的かつ非自発的な生理学的活動」を見落とすことが多い合成顔ビデオをより効果的に公開する方法について詳しく説明しています。
研究者は、人間の平均安静時まばたき率は毎分17回であり、誰かが話しているときは毎分26回に増加し、誰かが読んでいるときは毎分4.5回に減少すると述べています。研究者たちは、「トーキング・ヘッズの政治家の多くは、おそらく撮影中に読んでいるので」、これらの違いに注意を払う価値があると付け加えています。したがって、ビデオの主題がまったく点滅しない場合、その映像が合法ではないことは簡単にわかります。
ディープフェイク動画の主題が点滅しないのには理由があります。オンラインで投稿された人々の写真は一般に目を開いていることを示しているため、ニューラルネットワークに供給されるほとんどのトレーニングデータセットには目を閉じた写真が含まれていません。誰かが個人のディープフェイクを作成するために個人の写真をたくさん収集する必要があることを考えると、これは結果的です。これは、ターゲットの公開されている写真をオンラインで取得するオープンソースの写真スクレイピングツールを介して行うことができます。
以前の論文では、ディープフェイクを検出する方法としてまばたきがないことを指摘していますが、アルバニー大学の研究者は、彼らのシステムは以前に提案された検出方法よりも正確であると述べています。以前の研究では、目のアスペクト比(EAR)または畳み込みニューラルネットワークベース(CNN)の分類器を使用して、目を開いているか閉じているかを検出していました。この場合、研究者はCNNベースの方法を再帰型ニューラルネットワーク(RNN)と組み合わせました。これは、ビデオの個々のフレームに加えて以前の目の状態を考慮するアプローチです。
純粋なCNNモデルとは異なり、研究者は、長期再帰畳み込みネットワーク(LRCN)アプローチは、「よりスムーズで正確になるように、目の状態を効果的に予測できる」と述べています。論文によると、このアプローチの精度は、CNNの0.98およびEARの0.79と比較して0.99です。
少なくとも、研究者の調査結果は、これらの超現実的な偽のビデオの作成を可能にした機械学習の進歩が、それらを公開するのに役立つ可能性があることを示しています。しかし、ディープフェイクは依然として驚くほど急速に改善しています。たとえば、Deep Video Portraits と呼ばれる新しいシステムでは、ソースアクターが他の人のポートレートビデオを操作でき、まばたきや視線など、さまざまな生理学的信号が可能になります。
特に悪意のある俳優がテクノロジーを悪用して女性 を悪用し続け、偽のニュースの 拡散を促進する可能性があるため、専門家が偽のビデオから本物のビデオを見つける方法を探しているのを見るのは安心です。しかし、これらの検出方法がディープフェイク技術の急速な進歩を上回るかどうかはまだわかりません。そして、もっと心配なことに、一般の人々が彼らが見ているビデオが本物なのか、それともインターネットの荒らしの産物なのか疑問に思うのに時間がかかるのなら。
「私の個人的な意見では、最も重要なのは、一般の人々がビデオの生成と編集のための最新技術の機能を認識している必要があるということです」と、スタンフォード大学の客員助教授でディープビデオポートレートの開発を支援したMichaelZollhöferは次のように書いています。ブログ投稿。「これにより、特に原産地証明書がない場合に、毎日消費するビデオコンテンツについてより批判的に考えることができます。」
[h / tレジスター]