每周AI新闻(2024年第5周)ChatGPT等多应用登陆 Vision Pro | 字节Coze国内版上线等

news/2024/5/20 8:55:18 标签: 人工智能, chatgpt, AI, OpenAI, Coze

我是陌小北,一个正在研究硅基生命的、有趣儿的碳基生命。每周日20:00,准时解读每周AI大事件。

大厂动向

【1】ChatGPT、钉钉、Firefly AI 登陆 Vision Pro

OpenAI发布了新的ChatGPT App,允许Apple Vision Pro用户与GPT-4 Turbo模型进行自然语言交互,利用VisionOS操作系统的先进功能,支持多模态AI,实现文本、图像和声音的全方位交互。此应用免费提供,还提供ChatGPT Plus订阅,可获得更多功能和更快的响应时间。

钉钉宣布2月4日正式登陆Apple Vision Pro,并推出Vision Pro原生应用。用户在美区App Store可下载体验DingTalk App,在沉浸式环境下使用钉钉聊天、会议、直播等功能。

Adobe周五宣布其AI文生图工具Firefly AI将作为本机应用程序登陆苹果Vision Pro头显,同时其Lightroom照片编辑软件已在头显发布期间展示。新的Firefly体验是专为visionOS系统打造,支持用户将应用程序生成的图像移动并放到墙壁、桌子等现实世界的空间上。Adobe还预告了生成全景图、360度环境等功能。

【2】Google Bard启用Gemini Pro,并推出文生图新模型 Imagen 2

谷歌宣布 Google Bard 在全球范围内启用 Gemini Pro 并支持 4 多种语言,包括简体中文和繁体中文,用户不需要进行任何额外操作,现在打开 Bard 默认使用的就是 Gemini Pro 模型。
相较 PaLM 2 模型 Gemini Pro 的性能更好、逻辑推理能力更强,性能方面说是可以媲美 OPENAI 的 GPT-4 模型。

另一方面谷歌今天还推出文字生成图片的新模型 Imagen 2,这背后依靠的是谷歌实验室推出的 ImageFX 模型,用户可以使用该模型快速生成想要的图片。

【3】Meta 发布了开源大模型 Code Llama 70B

本周 Meta 发布了开源大模型 Code Llama70B,Code Llama 70B经过5000亿个代码标记和代码相关数据的训练,支持100000个Tokens的更长上下文,使其能够处理和生成更长、更复杂的代码。Code Llama 70B在HumanEval上得分为 67.8,与闭源模型GPT-4(68.2)和Gemini Pro(69.4)相当,远超此前的开源代码模型CodeGen-16B-Mono(29.3)和StarCoder(40.1)等。

GitHub地址:https://github.com/facebookresearch/llama

Hugging Face地址:https://huggingface.co/codellama

【4】字节AI Bot开发平台Coze国内版上线

新一代一站式AI Bot开发平台Coze于2月1日正式面向国内用户上线。无论用户是否有编程基础,都可以在Coze平台上快速搭建基于AI模型的各类问答Bot。并且,用户可以将搭建的Bot发布到各类社交平台和通讯软件上,与这些平台/软件上的用户互动。

【5】阿里发布手机操作智能体框架Mobile-Agent

阿里和北京交通大学的团队在arXiv上发表论文,提出了用于操作手机的智能体框架Mobile-Agent。据介绍,这是一个纯视觉解决方案,不需要XML(可拓展标记语言)和系统元数据,其操作范围不受限制,可进行多应用操作,配备多种视觉感知工具用于操作定位,且无需训练,即插即用。目前,Mobile-Agent已经学会了阿里巴巴、谷歌地图、TikTok等10个APP的操作,可以完成一些跨应用任务。

GitHub主页:https://github.com/X-PLUG/MobilAgent

论文地址:https://arxiv.org/abs/2401.16158

【6】百度文心一言内测数字分身功能

文心一言APP正在内测数字分身新功能,今日起,iOS和安卓用户可升级新版本免费试用。基于该功能,用户只需一张照片、录制三句语音,即可创建专属数字分身,并且支持个性化定义名称、声音、MBTI性格等,用户可选择是否公开自己的数字分身。

【7】iOS 18 有望成为 iPhone 历史上最大更新

据彭博社记者 Mark Gurman 透露,苹果正计划为 iOS 18 进行重大升级,iOS 18 有望成为 iPhone 历史上「最重磅」的软件更新。其中,在 AI Siri 方面, Gurman 也同样预计 iOS 18 将采用生成式 AI 技术,以提升 Siri 和 Messages 应用程序在问答和自动补全句子方面的能力。

创业 & 投融资

【1】Midjourney上线 Niji V6版本 和 风格参考图

二次元模型Niji-Journey V6上线,能生成超逼真动漫原画,Niji V6在风格的一致性上保持得不错,还能生成相应风格的文字,并且具有更多的厚涂感。新版Niji V6升级后的特点包括遵循指令能力提升、生成文本、非动漫风格、Explain to Niji等,具有更高的细节处理能力。

【2】Ack 浏览器上线 AI 直达网页功能,干掉搜索引擎屏中间商

Arc宣布推出了全新的 iOS 应用 Arc Search。这款融合了AI技术的应用致力于成为用户最便捷的搜索工具,用户只需打开应用即可开始搜索。Arc Search不仅支持常规的搜索引擎,其最大的亮点在于它的「Browse for me」功能。该功能利用 AI 技术,能够在阅读六个网页后自动提炼出主要内容,并生成一个新的网页,其中包含了关键的要点和详尽的解释。

【3】月之暗面被曝进行2亿美元融资

清华系大语言模型创企「月之暗面」近日正在进行2亿美元融资,由蚂蚁和阿里集团共同投资,投前估值预计15亿美元。近期频繁霸榜热门游戏应用“哄哄模拟器”便受益于月之暗面的技术支撑。月之暗面由清华计算机系毕业生杨植麟创办,目前团队规模在100~200人之间。

【4】美图收购站酷 扩大AI视觉大模型生态

美图公司2月2日发公告宣布收购站酷。站酷成立于2006年,聚集了来自全球300多个城市的设计师、摄影师、插画师等视觉创意从业者,拥有近1700万注册用户。随着站酷加入,美图影像与设计产品业务将得到进一步升级,为自研AI视觉大模型MiracleVision(奇想智能)的生态带来优质的协同效应,同时帮助美图在专业设计领域进行业务扩展,在版权和共创等方面增强美图的服务能力。

产品 & 模型

【1】Hugging Face发布定制AI聊天助手功能

Hugging Face宣布推出第三方、可定制的Hugging Chat Assistant。用户使用该功能,只需点击两下,即可创建具有特定功能的自定义AI聊天机器人助手,其功能与OpenAI的定制GPT Builder相近。GPT Builder完全依赖于OpenAI专有的GPT-4系列大模型,而Hugging Chat Assistant用户可从Llama 2、Mixtral等多个开源大语言模型中选择用哪个来为AI聊天助手提供支持。

【2】巨人网络完成游戏AI大模型GiantGPT的备案

据游戏公司巨人网络微信公众号发文,巨人网络正式完成游戏AI大模型GiantGPT的备案,成为游戏行业首家对外确认实现了此成果的企业,相关备案结果今日在上海正式公布。即日起,巨人网络AI大模型GiantGPT的有关服务可以正式开展业务。据介绍,GiantGPT是专注于游戏业务的垂类大模型,结合巨人网络自有数据与互联网公共数据训练,并针对角色演绎、情景推理与长期记忆等基础能力进行优化。

【3】大模型游戏“决战拜年之巅”爆火

一款演练春节期间如何应对亲戚灵魂拷问的大模型游戏“决战拜年之巅”近日蹿红。游戏出品团队是ChatMindAI,在2023年做AI思维导图工具起家,致力于AIGC应用创新,使用的大模型是国产GLM,将持续推出像拜年之巅这样的有趣作品。

【4】APUS联合波形智能推出中文创作大模型

APUS联合战略合作伙伴波形智能发布了新一代中文创作大模型,主打六大核心能力:更深更广的创作垂域、更自然真实的创作文风、更强的长文本生成能力、更快的生成速度、原生支持函数调用(function calling)、原生支持个性化知识库,据称在小说写作、营销文案写作、短视频脚本写作、论文写作等Benchmark上击败了GPT等通用大型语言模型。该模型进一步赋能APUS自身产品——萤火小说,据称显著提升内容召回的利用率达50%,并运用RAG+仿写技术让AI“越写越懂你”。

如果觉得不错,随手点个赞、评论、转发吧。我是陌小北,一个正在研究硅基生命的、有趣的碳基生命。如果你想第一时间看到我的文章,欢迎关注。


http://www.niftyadmin.cn/n/5364595.html

相关文章

python+flask人口普查数据的应用研究及实现django

作为一款人口普查数据的应用研究及实现,面向的是大多数学者,软件的界面设计简洁清晰,用户可轻松掌握使用技巧。在调查之后,获得用户以下需求: (1)用户注册登录后,可进入系统解锁更多…

OpenCV学习记录——特征匹配

文章目录 前言一、暴力匹配步骤分析二、代码分析 前言 特征匹配是一种图像处理技术,用于在不同图像之间寻找相似的特征点,并将它们进行匹配。特征匹配在计算机视觉和图像处理领域中具有广泛的应用,包括目标识别、图像拼接、三维重建等。 一、…

Linux cp命令(cp指令)解析

文章目录 Linux cp命令解析基本语法常用参数-i (交互式复制)-r 或 -R (递归复制)-v (详细输出)-p (保留文件属性) 高级应用复制多个文件到一个目录使用通配符复制多个文件 进阶讲解 Linux cp命令解析 Linux操作系统中,cp是一个非常实用且常见的命令,它的…

prettier和eslint冲突怎么解决?

前提:项目中已安装:eslint,prettier,已配置.eslintrc和.prettierrc eslint:用来校验和处理js文件,逻辑和格式问题 prettier:用来校验和处理js文件,css文件,html文件&…

Flink实战五_直播礼物统计

接上文:Flink实战四_TableAPI&SQL 1、需求背景 现在网络直播平台非常火爆,在斗鱼这样的网络直播间,经常可以看到这样的总榜排名,体现了主播的人气值。 人气值计算规则:用户发送1条弹幕互动,赠送1个荧…

《学成在线》微服务实战项目实操笔记系列(P1~P49)【上】

《学成在线》项目实操笔记系列【上】,跟视频的每一P对应,全系列12万字,涵盖详细步骤与问题的解决方案。如果你操作到某一步卡壳,参考这篇,相信会带给你极大启发。同时也欢迎大家提问与讨论,我会尽力帮大家解…

八、测试分析报告(软件工程)

1.引言 1.1编写目的 1.2项目背景 1.3定义 1.4参考资料 2.测试计划执行情况 2.1测试项目 2.2测试机构和人员 2.3测试结果 3.软件需求测试结论 4.评价 4.1软件能力 4.2缺陷和限制 4.3建议 4.4测试结论 …

【vscode】windows11在vscode终端控制台中打印console.log()出现中文乱码问题解决

1. 问题描述 在前端开发过程中使用vscode编写node.js,需要在控制台中打印一些中文信息,但是一直出现中文乱码问题,英文和数字都显示正常。在网上试了很多设置的办法,最终找到windos11设置中解决。 2. 原因 首先打开控制台&…