当前位置：首页 > 24小时 > 正文

阿里达摩院在AI模型社区“魔搭”ModelScope 上线“文本生成视频大模型”

2023-03-23 11:13:17　来源：新浪　

　　近日，阿里达摩院已在 AI 模型社区“魔搭”ModelScope 上线了“文本生成视频大模型”。

　　根据官方介绍，目前文本生成视频大模型，由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成，整体模型参数约 17 亿，目前仅支持英文输入。扩散模型采用 Unet3D 结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

　　官方介绍称，本模型适用范围较广，能基于任意英文文本描述进行推理，生成视频。一些文本生成视频示例如下：

　　A giraffe underneath a microwave.（一只在微波炉里的长颈鹿）

　　A goldendoodle playing in a park by a lake.（一只金贵犬在湖边的公园玩耍）

　　据IT之家了解，模型已经在创空间和 huggingface 上线，可以直接体验，也可以参考该页面自行搭建。模型需要硬件配置大约是 16GB 内存和 16GB GPU 显存。在 ModelScope 框架下，通过调用简单的 Pipeline 即可使用当前模型，其中，输入需为字典格式，合法键值为 'text'，内容为一小段文本。该模型暂仅支持在 GPU 上进行推理。

　　从试玩的结果来看，目前能生成的视频长度多在 2-4 秒，生成等候时间从 20 多秒到 1 分多钟不等

原标题：阿里达摩院上线文本生成视频大模型：仅支持英文输入，已开放试玩

免责声明： IT商业新闻网遵守行业规则，本站所转载的稿件都标注作者和来源。 IT商业新闻网原创文章，请转载时务必注明文章作者和来源“IT商业新闻网”，不尊重本站原创的行为将受到IT商业新闻网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：post@itxinwen.com

微信公众号：您想你获取IT商业新闻网最新原创内容，请在微信公众号中搜索“IT商业网”或者搜索微信号：itxinwen，或用扫描左侧微信二维码。即可添加关注。

标签：

品牌、内容合作请点这里： 寻求合作 ››

榜单

今日推荐

恒泰策略带你详细了解股票配资行业，...

阿里达摩院在AI模型社区“魔搭”ModelScope 上线“文本生成视频大模型”

相关阅读RELEVANT

榜单

今日推荐

科技互联