ソフトウェア, 動画,

スポンサーリンク
GIGAZINE

2D画像を入力するだけで遠近感のある没入型3D動画を生成できる動画生成AI「Stable Virtual Camera」をStability AIが発表

Stable Diffusionなどの生成AIを開発するStability AIが、2D画像をリアルな奥行きと遠近感を備えた没入型3D動画に変換できる動画生成AIの「Stable Virtual Camera」を発表しました。続きを読む.....
GIGAZINE

Discordをゲーム内に統合させる「Discord Social SDK」リリース、開発者がフレンドリストやクロスプラットフォームのチャットなどをゲーム内へ提供可能に、コンソールとスマホのサポートは近日公開

チャットコミュニケーションツール「Discord」のゲーム開発者向けキットとなる「Discord Social SDK」が2025年3月17日に発表されました。Discord Social SDKを使うことで、開発者はゲームに基本的なソーシ...
GIGAZINE

Baidu(百度)がDeepSeek-R1に匹敵するマルチモーダルAIモデル「ERNIE 4.5」と「ERNIE X1」を発表

中国テック企業のBaidu(百度)がマルチモーダルAIモデルの「ERNIE 4.5」と「ERNIE X1」を2025年3月16日に発表しました。Baiduによれば、ERNIE X1は、DeepSeek-R1とほぼ同等の性能を半分のコストで提...
GIGAZINE

GPT-4oやDeepSeek-V3超えの性能をGPU2個で実現する生成AIモデル「Command A」が登場、Transformerの発明者が設立したAI企業「Cohere」が開発

大規模言語モデル(LLM)のきっかけとなったTransformer論文の著者の1人であるエイダン・ゴメス氏らのAI企業・Cohereが、2025年3月13日に新しいモデルの「Command A」を発表しました。Command Aは、GPT-...
GIGAZINE

Microsoftが2025年内にTypeScriptを10倍高速にするツールをリリース予定と発表

TypeScriptはJavaScriptに型を組み込んだ言語で、Microsoftが開発・メンテナンスを行っています。2025年3月11日、Microsoftが「TypeScriptのコンパイルを10分の1の時間で行う新たなツールを開発中...
GIGAZINE

高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に

AI開発企業のMistral AIが、画像に含まれるテキストを認識してテキストデータに変換できるAIモデル「Mistral OCR」を発表しました。Mistral OCRはLaTeXで書かれた複雑な数式も認識できるのに加え、文書に含まれる図...
GIGAZINE

Operaにブラウザを自動操作できるAI機能「Browser Operator」が追加される予定、ユーザーの指示に沿って買い物したりチケットを予約したりできる

ウェブブラウザ「Opera」にAIでブラウザを自動操作する機能「Browser Operator」が追加されることが明らかになりました。ユーザーは「○○を2個買って」というように自然な言語で指示することが可能で、AIによる自動操作を中断して...
GIGAZINE

iPhoneの音声認識機能で「Racist(人種差別主義者)」と入力すると「Trump(トランプ)」と認識する不具合が発生

一部のiPhoneユーザーから、音声入力機能を用いて「Racist(人種差別主義者)」という単語を入力した際、「Trump(トランプ)」と認識されることがあるという指摘が上がっています。Appleは不具合の存在を認め、修正に取りかかっていま...
GIGAZINE

NVIDIAがAIを用いた手話学習ツール「Sign」を発表

NVIDIAがAIを用いた手話学習ツール「Sign」を発表しました。Signは手話学習者に対して手の動かし方を教えられるほか、手話ユーザーの手の動きをデータ化して収集する機能も搭載しています。続きを読む......
GIGAZINE

現実世界の様子やUIを理解してタスクをこなせるマルチモーダルAIエージェントの基盤モデル「Magma」をMicrosoftが発表

Microsoftが2025年2月に、現実世界の様子やデバイス上のスクリーンを認識して行動できるマルチモーダルAIエージェントの基盤モデルである「Magma」を発表しました。続きを読む......
GIGAZINE

Googleに約25年務める開発者が「どうやってGoogleは汎用人工知能(AGI)を達成しようと計画しているのか」について語る

近年では、人間のように未知の状況でも新たなスキルを効率的に取得して適応することが可能な「汎用(はんよう)人工知能(AGI)」の構築がさまざまなAI研究機関によって進められており、OpenAIはAGIの構築に向けてアメリカの国立研究機関と提携...
GIGAZINE

YouTubeショートにGoogle製動画生成AI「Veo 2」を用いた動画作成機能が追加される

YouTubeショートのAIを用いた動画作成補助機能「Dream Screen」に、Google製動画生成AI「Veo 2」を用いて動画を作る機能が追加されました。ユーザーは動画投稿時にVeo 2を用いて動画や画像を生成し、動画内の1シーン...
GIGAZINE

AIでディープフェイク動画を作られたスカーレット・ヨハンソンがAI規制を訴える

女優のスカーレット・ヨハンソン氏が、自身のAIディープフェイク動画がネット上で拡散されたことを受けて政府にAIを規制する法案の可決を最優先課題にするよう要請していることが報じられました。続きを読む......
GIGAZINE

もう何も信じられないレベルでリアルなディープフェイク動画が作れるByteDanceのAI「OmniHuman-1」が登場

1枚の写真から人が自然に話したり、歌ったり、動いたりするリアルな動画を出力するAIシステム「OmniHuman-1」を中国のByteDanceが発表しました。続きを読む......
GIGAZINE

Operaがマインドフルネスと心の健康に焦点を当てたブラウザ「Opera Air」をリリース

2025年2月4日、Operaがマインドフルネスを核とした世界初のウェブブラウザである「Opera Air」をリリースしました。ウェブサーフィン中にユーザーの気分が良くなるように設計されたウェブブラウザで、バイノーラルビートを流したり、前向...
GIGAZINE

OpenAIのサム・アルトマンCEOが「DeepSeek-R1はスゴイけど、もっとスゴイAIモデルを発表予定」と発言

AI業界のリーダー的存在であるOpenAIのサム・アルトマンCEOが、低コストで高パフォーマンスなAIモデルを開発したと業界で話題の中国発のAI企業「DeepSeek」について、「DeepSeek-R1は印象的なモデルだけど、より優れたAI...
GIGAZINE

PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能

Alibaba CloudのAI研究チームであるQwenが、視覚言語モデル「Qwen2.5 VL」をリリースしました。Qwen2.5 VLは画像に含まれる被写体の種類を認識したり文字を書き起こしたりできるだけでなく、PCやスマートフォンのU...
GIGAZINE

あのNyan CatをUEFIに移植する「UEFI NYAN 80×25」が登場

PCを起動した際に、OSが動作する前にCPUやメモリなどが正しく動作するように制御するインターフェースがUEFI(Unified Extensible Firmware Interface)です。このUEFIにNyan Catを移植する「U...
GIGAZINE

キヤノンが複数のスマホでマルチアングル撮影できるライブ配信用アプリ「Live Switcher Mobile」をリリース、キヤノンのカメラ接続には今後対応予定

キヤノンが複数のスマートフォンを接続することによって簡単にマルチアングルでのライブ配信ができるアプリ「Live Switcher Mobile」をリリースしました。対応OSはiOS 16/17/18とiPadOS 16/17/18で、接続が...
GIGAZINE

Adobe Photoshopの編集作業を複数人で同時実行できる「ライブ共同編集」が登場

Photoshopに複数人での同時編集を可能とする機能「ライブ共同編集」が追加されることが発表されました。記事作成時点ではベータテストが実施されています。続きを読む......
スポンサーリンク
通知を有効にしますか? OK! No...