大規模マルチモーダル言語モデル
複雑な図表を高精度に読み取り可能なLMM
リコーは3月30日、複雑な図表を含む多様なドキュメントを高精度に読み取れる大規模マルチモーダル言語モデル(LMM)を開発したと発表した。開発の背景として、非構造化データの活用不足が挙げられる。企業内にあるデータの多くは非構造化データだ。一方で、労働力不足への対応やベテラン社員の退職による暗黙知の消失から、これらの活用が急務となっている。同社 リコーデジタルサービスビジネスユニット AIサービス事業本部 デジタル技術開発センター 所長 鈴木 剛氏は、社内文書の活用について「図表に含まれるロジックを、多段のステップで推論する必要があります」と語る。
今回発表したモデルでは、リーズニング性能、特に多段推論の性能が強化されている。LMMの学習ステップであるVisual Question Answering(VQA)の選定、教師あり微調整、強化学習の中で、肝となるのが強化学習だ。今回発表したモデルでは、一つの設問に対して、複数個の回答をさせ、正解との一致度が高いほど、高い報酬が得られるように関数を設定した。さらに、推論の過程が含まれているか、その過程が日本語であるかという点も関数に組み込んだ。これにより、日本語文書の読み取り精度の向上に加え、回答の判断根拠や前提条件を日本語で確認できるようになり、実務利用における信頼性が高まっている。
本説明会では、LMMの基本モデルの開発に加え、企業での実務利用に向けた成果も二つ発表された。一つ目は、コスト削減技術だ。メモリー圧迫の要因となるトークンを圧縮する技術の開発や、学習済みの複数モデルを組み合わせて高性能化する技術の適用が挙げられる。二つ目は、個別の企業に対応したチューニングだ。企業の実資料を用いて基本モデルをチューニングすることで、読み取り精度の向上を図る。
今回発表されたLMMは、同社のAIプラットフォーム「Hi.DEEN」に搭載予定であり、実用化も間近となっている。AI技術をベースに、実用化に向けたAIの生産技術として今後も強化される見通しだ。


