顔表現を生成する大規模言語モデルに関する研究
Abstract
近年, 動画生成AIにおける人物の表情変化が乏しいという課題が指摘されており, これに対する解決策として, テキストからの感情情報生成が注目されている. 本研究では, テキストから時系列感情情報(emotional vector)を生成する大規模言語モデル「Emotional LLM」を提案する. 本モデルは, 動画から抽出した感情情報と対応する発話テキストを用いてtext-to-emotional vectorデータセットを構築し, LLaMA3をLoRAによってファインチューニングすることで実現した. また, 生成されたemotional vectorの妥当性を評価するため, Dynamic Time Warping(DTW)を用いて正解データとの距離を定量的に計測した. その結果, 提案手法によって生成されたベクトルは, 対応する正解データに対して他のデータよりも近い距離を示し, 有効性が確認された. 本研究は, テキストのみで表情豊かな動画生成を実現するための一手法として有用である.