Telegram Web Link
ChatGPT及Grok近期均推出教育免费计划。北美及加区学生可免费使用ChatGPT Plus及SuperGrok。

OpenAI: 注册后 https://chatgpt.com/students ,认证SheerID即可领取。
Grok: 使用教育邮箱注册后即可直接在订阅界面0元订阅。
#白嫖
👍4
Github已主动屏蔽中国大陆IP访问。 #快讯
👍33🥰7👏5🔥4
Forwarded from AI一线|ShareCentre
OpenAI推出新一代GPT-4.1系列模型

今日,OpenAI宣布通过API推出三款全新模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这三款模型在各方面均优于GPT-4o和GPT-4o mini,特别是在代码生成和指令遵循能力上取得重大突破。这些模型还支持高达100万tokens的上下文窗口,并能更有效地利用长上下文,同时将知识截止日期更新至2024年6月。

卓越性能亮点

编程能力
- GPT-4.1在SWE-bench基准测试中得分54.6%,比GPT-4o提高21.4%,比GPT-4.5提高26.6%,使其成为编程领域的领先模型
- 在人工评估中,80%的情况下评估者更偏好GPT-4.1生成的网站而非GPT-4o
- 在内部评估中,代码中的多余编辑从GPT-4o的9%降低到GPT-4.1的2%

指令遵循
- 在Scale的MultiChallenge基准测试中,GPT-4.1得分38.3%,比GPT-4o提高10.5%
- 在IFEval测试中,GPT-4.1得分87.4%,而GPT-4o为81.0%
- 特别擅长格式遵循、负面指令、有序指令、内容要求、排序和避免过度自信

长上下文理解
- 所有三款模型均支持100万tokens的上下文窗口
- 在Video-MME基准测试中(针对30-60分钟长视频的理解),GPT-4.1创下新纪录,得分72.0%,比GPT-4o提高6.7%
- 在全新的OpenAI-MRCR和Graphwalks评估中展现出卓越的多轮和多跳推理能力

视觉理解
- GPT-4.1 mini在图像理解基准测试中表现尤为出色,在多项测试中超越了GPT-4o
- 在MMMU、MathVista和CharXiv-Reasoning等跨模态基准测试中均有显著提升

真实场景应用案例

编程应用
- Windsurf:在内部编码基准测试中,GPT-4.1比GPT-4o高出60%,工具调用效率提高30%,不必要的编辑减少约50%
- Qodo:在200个实际GitHub拉取请求的代码审查测试中,55%的情况下GPT-4.1提供了更优质的建议

指令遵循应用
- Blue J:在最具挑战性的实际税务场景内部基准测试中,GPT-4.1的准确率比GPT-4o高53%
- Hex:在最具挑战性的SQL评估集上,GPT-4.1的表现提升近2倍,尤其是在从大型、复杂模式中选择正确表格的能力上

长上下文应用
- Thomson Reuters:在使用CoCounsel(法律工作AI助手)时,多文档审查准确率提高17%
- Carlyle:在提取多份复杂文档中的精细财务数据时,长文档检索性能提升50%,首次成功克服核心限制

定价和可用性

OpenAI通过提高推理系统效率,提供了更具竞争力的价格:
- GPT-4.1:输入$2.00/百万tokens,输出$8.00/百万tokens(比GPT-4o便宜26%)
- GPT-4.1 mini:输入$0.40/百万tokens,输出$1.60/百万tokens
- GPT-4.1 nano:输入$0.10/百万tokens,输出$0.40/百万tokens(OpenAI最便宜最快速的模型)

提示缓存折扣从之前的50%提高到75%,长上下文请求不收取额外费用。

值得注意的是,GPT-4.1将仅通过API提供。在ChatGPT中,许多指令遵循、编码和智能方面的改进已逐步整合到最新版本的GPT-4o中,并将在未来版本中继续整合更多功能。


OpenAI还宣布将开始弃用API中的GPT-4.5预览版,因为GPT-4.1在许多关键能力上提供了相同或更好的性能,同时成本和延迟更低。GPT-4.5预览将于2025年7月14日关闭,以便开发者有时间过渡。

所有三款新模型现已向所有开发者开放。

OpenAI表示,GPT-4.1是人工智能实际应用的重大进步,专注于从编码到指令遵循和长上下文理解等实际开发者需求,为构建智能系统和复杂的代理应用程序开启了新的可能性。

发布视频: https://www.youtube.com/live/kA-P9ood-cE
👍1
新一代机场VPN系统 PPanel 发布 1.0 正式版并宣布全面开源

由全球多元化团队联合开发、以 Go 语言和全新架构打造的新一代机场管理面板 PPanel,近日正式发布了 1.0 稳定版本。与此同时,PPanel 同步开放了前后端源代码,欢迎全球开发者和用户进行自由审计与参与协作。

PPanel 致力于提供更加高效、灵活、面向未来的机场管理体验。其采用现代化技术栈,具备高性能、高可维护性、持续迭代等特点,由来自世界各地的开发者团队持续维护与优化,确保系统稳定、安全、符合行业前沿标准。

用户可通过以下渠道了解更多信息及参与社区讨论:
官方群组:https://www.tg-me.com/PPanelChat

官方频道:https://www.tg-me.com/PPanel

PPanel 的发布和开源标志着新一代机场管理系统迈出了重要一步,为行业注入了新的活力。
👍73
🌟 光云 内测邀请函 🌟
📍 官网: https://guang-cloud.com
💬 官方群组:@guang_cloud

🚀 光云正式开启内测啦!
内测期间 免费使用,特奉上内测券码:

🎟️ neice

👉全额抵扣敏捷小组月度套餐

🗓️ 限时邀请机制开启!(即日起至 5月5日 24:00)
邀请好友注册并购买套餐,
💰 返利100%(限消费金额,不可提现)!

🛠️ 欢迎大家积极使用并反馈建议~
一起打造更强大的光云!🌈
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
📰 微信公众号文章
提供“翻墙节点”的机场主有多赚钱?》

🔗 https://mp.weixin.qq.com/s/bd_giuPEyPBu9LTOtC2VHw
💯27
Forwarded from AI一线|ShareCentre
Qwen发布新一代大模型Qwen3:思深,行速

2025年4月29日,Qwen团队正式发布新一代大型语言模型系列——Qwen3。此次发布包括旗舰MoE模型Qwen3-235B-A22B(总参数超2350亿)和轻量版Qwen3-30B-A3B,以及六个Dense模型,全部开源并采用Apache 2.0许可。

Qwen3在代码、数学、通用推理等多个基准测试中表现优异,与DeepSeek、Grok、Gemini等顶尖模型竞争力十足。特别是小型模型Qwen3-4B,其性能已媲美前代Qwen2.5-72B模型。

核心亮点包括:
思考模式切换:支持深度推理或快速响应,用户可根据任务灵活控制推理预算。
多语言支持:覆盖119种语言与方言,进一步拓宽全球应用范围。
强化Agent能力:显著提升环境交互与工具调用效率,适配多种应用场景。
预训练升级:采用约36万亿token数据(比前代翻倍),涵盖更多学科、代码及长文本数据。
灵活部署:支持Hugging Face、ModelScope、Kaggle等平台,同时适配SGLang、vLLM、Ollama等开发框架。

Qwen团队表示,Qwen3标志着向通用人工智能(AGI)迈进的重要一步,未来将在数据规模、模型规模、推理深度、多模态集成等方面持续创新,致力于从训练大模型到训练智能Agent的转型。

Qwen3现已上线,用户可通过网页版或移动App体验全新能力。

该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub 开放,用户可访问 Qwen Chat 体验 Qwen3,并加入 Discord 参与讨论。

官方Blog: https://qwenlm.github.io/zh/blog/qwen3/
👍7🥰2
2025/07/08 23:03:05
Back to Top
HTML Embed Code: