今週は、AI技術がますます進化し、新たな道を切り開くニュースが目白押しです。Googleの新たなLLM「Gemma 3」の発表から始まり、フランスのMistralが提供する高精度OCR技術、OpenAIが企業向けに提供するAIエージェント構築ツールまで、多岐にわたる話題が盛り込まれています。さらに、Google DeepMindの新ロボティクスモデルやPinterestの新しいプライバシーポリシーまで、AIとプライバシーに関する重要なニュースもお届けします。AIの未来を垣間見るこの機会をお見逃しなく。
Googleの新たなLLM「Gemma 3」の発表
Googleは、新しいマルチモーダル・マルチリンガル大規模言語モデル「Gemma 3」をリリースしました。このモデルは、最大27Bのパラメータを持ち、128kトークンのコンテキストウィンドウを備えており、テキストと画像の処理が可能です。140以上の言語をサポートし、商用利用も許可されています[1,2,3]。Gemma 3は、スマートフォンやラップトップでも軽量かつ高速に動作し、開発者に柔軟性を提供する一方で、安全性を確保するための「ShieldGemma 2」も併せて発表されました[4,5,6,7]。このLLMは、Hugging FaceやKaggleを通じてアクセス可能であり、AI技術の普及に貢献しています[2]。
Mistral OCRの登場
フランスのMistral AIは、新しい光学文字認識API「Mistral OCR」を発表しました。このAPIは、画像やPDFからテキストや図版を高精度で抽出し、多言語対応を実現しています。Mistral OCRは、最大2,000ページを1分で処理でき、出力形式はテキストやMarkdownとして提供されます。複雑な数式や図表も正確に解析可能で、オンプレミス展開も計画されています[8,9,10,11,12,13]。
OpenAIのAIエージェント構築ツール
OpenAIは、企業や開発者が自律的なタスクを実行するAIエージェントを構築するための新ツール「Responses API」と「Agents SDK」を発表しました。これらのツールは、複数のツールやモデルを統合し、複雑なタスクを簡素化します。「Responses API」は、ウェブ検索やファイル検索を組み込み機能として提供し、エージェントのワークフローを効率化します[14,15,16,17,18,19]。
Google DeepMindの「Gemini Robotics」
Google DeepMindは、AIを物理世界で活用するための新たなロボティクスモデル「Gemini Robotics」および「Gemini Robotics-ER」を発表しました。これらのモデルは、視覚と言語理解、物理的動作を統合し、複雑な現実のタスクに対応できるよう設計されています。また、安全性を重視し、ロボットの行動を人間の価値観に合わせる研究も進めています[20,21,22,23]。
Pinterestの新しいプライバシーポリシー
画像共有SNSのPinterestは、ユーザーの投稿画像を生成AIのトレーニングに使用する可能性を示す新しいプライバシーポリシーを発表しました。これに対し、国内外で反発の声が上がっています。新しいポリシーでは、ユーザーが投稿した画像を取得し、AI機能の改善に活用することが明記されており、ユーザーの選択を尊重する仕組みの導入が求められています[24,25]。