しょーてぃー(@shoty_k2) 's Twitter Profile Photo

GoogleがUIやインフォグラフィック理解に特化したビジョン言語モデル「ScreenAI」紹介してた。レイアウトアノテーター、アイコン分類器、画像キャプショニングモデル、OCRエンジンを適用し、UIの各要素に詳細な注釈を付けてるんか。人とコンピュータのインタラクションに大きく影響あるやつだ。

account_circle
木内翔大@SHIFT AI代表「日本をAI先進国に」𝕏(@shota7180) 's Twitter Profile Photo

【3Dの人間モデルをデジタル空間に配置】

3D人間とシーン相互作用のゼロショット合成技術「GenZI」が公開された

この技術は、ビジョン言語モデルを活用し、自然言語で指定した3Dシーン内の相互作用を合成可能

従来の3D合成手法の限界を超え、新たな可能性を開く

続く>>

account_circle
あいな👁S級人工知能技師(@AI_aina7) 's Twitter Profile Photo

【3Dの人間モデルをデジタル空間に配置する技術】

3D人間とシーン相互作用の合成技術「GenZI」に注目👀

この技術はビジョン言語モデルを活用し、自然言語で指定した3Dシーン内の相互作用を合成可能

account_circle
田中義弘 | taziku CEO / AI × Creative(@taziku_co) 's Twitter Profile Photo

【視覚的なヒントを与える】
PIVOTは、ロボットの視覚にヒントを与えるヒントを表示させ、ビジョン言語モデル (VLM) の性能をと精度を引き上げる、VLM 用の新しい視覚的プロンプト。

非常にわかりにくいので、視覚的プロンプト例を御覧ください。

続く>>

account_circle
津本海🥦スニフアウト CEO(@tsumotokai) 's Twitter Profile Photo

反復的にビジョン言語モデルを制御する手法「PIVOT」

DeepMind 新しい論文で、 ロボット制御などのために 反復的にVLM(Vision language models) をコントロールもできる手法

account_circle
News Source Crawler(@NewsSrcCrawler) 's Twitter Profile Photo

AI の海でのもう 1 つの低下: Moondream AI: エッジ デバイス上で効率的に実行するように設計された小型ビジョン言語モデルで、ベンチマークは VQAv2 75.4、GQA 59.8、TextVQA 43.1 です。

account_circle
WEELサイ🦏生成AI専門メディアの中の人(@h__alchemist) 's Twitter Profile Photo

Googleから新しいビジョン言語モデル(VLM)の「PaliGemma」が公開されました!

■ 概要
このモデルは、GoogleのVLMであるPaLI-3から着想を得ており、SigLIP-So400mを画像エンコーダとして、Gemma-2Bをテキストエンコーダ統合した、軽量で汎用性の高いVLMです。

account_circle
Kyutaro@Web x AI x DX(@kyutaro15) 's Twitter Profile Photo

約2万ドルで完全自律型ロボットが作れるとのこと。しかもVLM(ビジョン言語モデル)を使用しているので、一つのモデルでなんでも対応できます!実使用中の20種類のドアの実験では、1時間以内に50%➡︎95%まで成功率向上。
自律型ロボは急速に発展していて、スターウォーズ'的'な世界はもうすぐです!

account_circle
斑鳩イカリング(@Khaki0102624) 's Twitter Profile Photo

LLMからVLM(ビジョン言語モデル)へ能力を転移させてチャートの表現を改善
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs (2024)
arxiv.org/pdf/2403.12596…

LLMからVLM(ビジョン言語モデル)へ能力を転移させてチャートの表現を改善
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs (2024)
arxiv.org/pdf/2403.12596…
account_circle
S. Ota(@susumuota) 's Twitter Profile Photo

arxiv.org/abs/2310.09199
この論文では、10倍以上の大きさを持つ類似のモデルと比較しても遜色のない、より小さく、より速く、より強力なビジョン言語モデル(VLM)であるPaLI-3を紹介する。この強力な性能に到達する一環として、分類目標を用いて事前学習されたVision Transformer(ViT)...

arxiv.org/abs/2310.09199
この論文では、10倍以上の大きさを持つ類似のモデルと比較しても遜色のない、より小さく、より速く、より強力なビジョン言語モデル(VLM)であるPaLI-3を紹介する。この強力な性能に到達する一環として、分類目標を用いて事前学習されたVision Transformer(ViT)...
account_circle
yasuna(@yasun_ai) 's Twitter Profile Photo

レシートto JSON だ。以下翻訳/ Idefics2 は、そのサイズに対して最も強力なオープンソースのビジョン言語モデルの 1 つです。
リリースを記念して、ドキュメント AI ユースケース (領収書画像 - > JSON など) に合わせて微調整する方法を紹介するデモ ノートブックを作成しました。

account_circle
Managetech inc.(@managetech_inc) 's Twitter Profile Photo

TII が Falcon 2-11B をリリース: ビジョン言語モデルを使用して 5.5T トークンでトレーニングされた Falcon 2 ファミリーの最初の AI モデル - MarkTechPost

prompthub.info/6281/

account_circle
misshiki_bkmk(@misshiki_bkmk) 's Twitter Profile Photo

“PaliGemma は、Google のビジョン言語モデルの新しいファミリーです。 PaliGemmaは画像とテキストを取り込んでテキストを出力することができます。”
/ “PaliGemma – Google's Cutting-Edge Open Vision Language Model” htn.to/tMhYzQtB1e

account_circle
EARLの医学ツイート(@EARL_med_tw) 's Twitter Profile Photo

XrayGPTという新しい会話型の医療ビジョン-言語モデルを作成.このモデルは,胸部単純X線についてのオープンエンドの質問を分析し,回答できる.医療ビジョンエンコーダ(MedClip)と微調整された大規模言語モデル(Vicuna)で視覚的会話能力を有する(arXiv 2023 Jun.13)
arxiv.org/abs/2306.07971

account_circle
atsuizo(@atsuizo) 's Twitter Profile Photo

SageMaker と Amazon Bedrock を使用してビジョン言語モデルを微調整してファッション商品の説明を生成する
aws.amazon.com/jp/blogs/machi…

account_circle
AI論文Bot(@AiRonbun) 's Twitter Profile Photo

- 01.AIが開発したYiモデルファミリーは、6Bおよび34Bの事前学習済み言語モデルをベースにしており、チャットモデルやビジョン言語モデルなどへと拡張されている。
- モデルはMMLUなどのベンチマークテストで高いパフォーマンスを達成し、AlpacaEva

account_circle
Taiyo | AIで遊ぶ大学生(@Taiyo_AiAA) 's Twitter Profile Photo

11. Geminiと同じ技術で作られたオープンモデルが2つ登場!

🔘 PaliGemma: 高性能なビジョン・言語モデル
🔘 Gemma 2: 近日公開予定。27億パラメータのモデルなど、さまざまなサイズで提供予定。

account_circle