Twitter #ビジョン言語モデル hashtag • TwiCopy

しょーてぃー

1 month ago

GoogleがUIやインフォグラフィック理解に特化したビジョン言語モデル「ScreenAI」紹介してた。レイアウトアノテーター、アイコン分類器、画像キャプショニングモデル、OCRエンジンを適用し、UIの各要素に詳細な注釈を付けてるんか。人とコンピュータのインタラクションに大きく影響あるやつだ。

thumb_up_off_alt203

chat_bubble_outline0

account_circle

木内翔大＠SHIFT AI代表「日本をAI先進国に」𝕏

5 months ago

【3Dの人間モデルをデジタル空間に配置】

3D人間とシーン相互作用のゼロショット合成技術「GenZI」が公開された

この技術は、ビジョン言語モデルを活用し、自然言語で指定した3Dシーン内の相互作用を合成可能

従来の3D合成手法の限界を超え、新たな可能性を開く

続く>>

thumb_up_off_alt98

chat_bubble_outline0

account_circle

あいな👁S級人工知能技師

5 months ago

【3Dの人間モデルをデジタル空間に配置する技術】

3D人間とシーン相互作用の合成技術「GenZI」に注目👀

この技術はビジョン言語モデルを活用し、自然言語で指定した3Dシーン内の相互作用を合成可能

thumb_up_off_alt19

chat_bubble_outline0

account_circle

田中義弘 | taziku CEO / AI × Creative

3 months ago

【視覚的なヒントを与える】
PIVOTは、ロボットの視覚にヒントを与えるヒントを表示させ、ビジョン言語モデル (VLM) の性能をと精度を引き上げる、VLM 用の新しい視覚的プロンプト。

非常にわかりにくいので、視覚的プロンプト例を御覧ください。

続く>>

thumb_up_off_alt5

chat_bubble_outline0

account_circle

津本海🥦スニフアウト CEO

3 months ago

反復的にビジョン言語モデルを制御する手法「PIVOT」

DeepMind 新しい論文で、ロボット制御などのために反復的にVLM（Vision language models）をコントロールもできる手法

thumb_up_off_alt12

chat_bubble_outline0

account_circle

News Source Crawler

@NewsSrcCrawler

2 months ago

AI の海でのもう 1 つの低下: Moondream AI: エッジデバイス上で効率的に実行するように設計された小型ビジョン言語モデルで、ベンチマークは VQAv2 75.4、GQA 59.8、TextVQA 43.1 です。

thumb_up_off_alt0

chat_bubble_outline0

account_circle

T.Yamazaki

4 weeks ago

2時間のトレーニングで日常作業を身に付けることができる、遠隔操作AIトレーニング・プラットフォーム
youtu.be/xM7N3D7g3nk

#imitation_learning #vision_language_model #ArtificialIntelligence #Robot #Cobot #Robot icAutomation #XTrainer #Dobot #模倣学習 #ビジョン言語モデル

thumb_up_off_alt132

chat_bubble_outline0

account_circle

WEELサイ🦏生成AI専門メディアの中の人

1 week ago

Googleから新しいビジョン言語モデル(VLM)の「PaliGemma」が公開されました！

■ 概要
このモデルは、GoogleのVLMであるPaLI-3から着想を得ており、SigLIP-So400mを画像エンコーダとして、Gemma-2Bをテキストエンコーダ統合した、軽量で汎用性の高いVLMです。

thumb_up_off_alt2

chat_bubble_outline0

account_circle

Kyutaro@Web x AI x DX

4 months ago

約2万ドルで完全自律型ロボットが作れるとのこと。しかもVLM（ビジョン言語モデル）を使用しているので、一つのモデルでなんでも対応できます！実使用中の20種類のドアの実験では、1時間以内に50%➡︎95%まで成功率向上。
自律型ロボは急速に発展していて、スターウォーズ'的'な世界はもうすぐです！

thumb_up_off_alt11

chat_bubble_outline0

account_circle

斑鳩イカリング

2 months ago

LLMからVLM（ビジョン言語モデル）へ能力を転移させてチャートの表現を改善
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs (2024)
arxiv.org/pdf/2403.12596…

LLMからVLM（ビジョン言語モデル）へ能力を転移させてチャートの表現を改善
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs (2024)
arxiv.org/pdf/2403.12596…

thumb_up_off_alt0

chat_bubble_outline0

account_circle

S. Ota

7 months ago

arxiv.org/abs/2310.09199
この論文では、10倍以上の大きさを持つ類似のモデルと比較しても遜色のない、より小さく、より速く、より強力なビジョン言語モデル（VLM）であるPaLI-3を紹介する。この強力な性能に到達する一環として、分類目標を用いて事前学習されたVision Transformer（ViT）...

arxiv.org/abs/2310.09199
この論文では、10倍以上の大きさを持つ類似のモデルと比較しても遜色のない、より小さく、より速く、より強力なビジョン言語モデル（VLM）であるPaLI-3を紹介する。この強力な性能に到達する一環として、分類目標を用いて事前学習されたVision Transformer（ViT）...

thumb_up_off_alt0

chat_bubble_outline0

account_circle

yasuna

2 weeks ago

レシートto JSON だ。以下翻訳/ Idefics2 は、そのサイズに対して最も強力なオープンソースのビジョン言語モデルの 1 つです。
リリースを記念して、ドキュメント AI ユースケース (領収書画像 - > JSON など) に合わせて微調整する方法を紹介するデモノートブックを作成しました。

thumb_up_off_alt1

chat_bubble_outline0

account_circle

Managetech inc.

@managetech_inc

1 week ago

TII が Falcon 2-11B をリリース: ビジョン言語モデルを使用して 5.5T トークンでトレーニングされた Falcon 2 ファミリーの最初の AI モデル - MarkTechPost
#FalconInnovation #TIIModels #ResponsibleAI #LanguageModeling
prompthub.info/6281/

thumb_up_off_alt0

chat_bubble_outline0

account_circle

misshiki_bkmk

1 week ago

“PaliGemma は、Google のビジョン言語モデルの新しいファミリーです。 PaliGemmaは画像とテキストを取り込んでテキストを出力することができます。”
/ “PaliGemma – Google's Cutting-Edge Open Vision Language Model” htn.to/tMhYzQtB1e

thumb_up_off_alt1

chat_bubble_outline0

account_circle

EARLの医学ツイート

11 months ago

XrayGPTという新しい会話型の医療ビジョン-言語モデルを作成．このモデルは，胸部単純X線についてのオープンエンドの質問を分析し，回答できる．医療ビジョンエンコーダ（MedClip）と微調整された大規模言語モデル（Vicuna）で視覚的会話能力を有する（arXiv 2023 Jun.13）
arxiv.org/abs/2306.07971

thumb_up_off_alt28

chat_bubble_outline0

account_circle

atsuizo

5 days ago

SageMaker と Amazon Bedrock を使用してビジョン言語モデルを微調整してファッション商品の説明を生成する
aws.amazon.com/jp/blogs/machi…

thumb_up_off_alt0

chat_bubble_outline0

account_circle

あみ＠最新AI論文の知見を分かりやすく解説

1 month ago

ビジョン言語モデルのプロンプト学習の最適化について - rag-lover.com/2024/04/18/%e3…

thumb_up_off_alt0

chat_bubble_outline0

account_circle

AI論文Bot

2 months ago

- 01.AIが開発したYiモデルファミリーは、6Bおよび34Bの事前学習済み言語モデルをベースにしており、チャットモデルやビジョン言語モデルなどへと拡張されている。
- モデルはMMLUなどのベンチマークテストで高いパフォーマンスを達成し、AlpacaEva

#AI

thumb_up_off_alt1

chat_bubble_outline0

account_circle

あみ＠最新AI論文の知見を分かりやすく解説

1 month ago

フィードバックによるビジョン言語モデルの意味的基盤強化 - rag-lover.com/2024/04/10/%e3…

thumb_up_off_alt0

chat_bubble_outline0

account_circle

Taiyo | AIで遊ぶ大学生

2 weeks ago

11. Geminiと同じ技術で作られたオープンモデルが２つ登場！

🔘 PaliGemma: 高性能なビジョン・言語モデル
🔘 Gemma 2: 近日公開予定。27億パラメータのモデルなど、さまざまなサイズで提供予定。

thumb_up_off_alt9

chat_bubble_outline0

account_circle