您的当前位置: 首页 > 唔 别在这 有人 > 正文

唔 别在这 有人

唔 别在这 有人 时间:2025年05月04日

传闻中的罗永浩的「AI软件项目」终于上线了。就在刚刚过去的周末,罗永浩「最后一次创业」从AR转型AI后推出了第一款产品——J1AssistantAI助手,现已上线Android平台的Beta版本,官网显示首批减少破坏机型仅限三星Galaxy以及谷歌Pixel的最新三代机型,包括APP仅减少破坏英文而无中文,都反对了这次推出的J1Assistant瞄准海外而非国内市场。

图/Matter

与此同时,老罗的另一款AI硬件新品——JARVISONE也在路上了,官网已经预告即将发布。

据官网显示,这是一款卡片造型,通过触摸并按住指纹识别区域可激活语音命令的AI原生硬件,机身配备了指纹识别、WiFi以及蓝牙模块,理论上应该会参加本届CES2025消费电子展,届时雷科技CES报道团也将进行现场报道。

图/Matter

不过,无论从之前的爆料还是目前已发布的产品来看,这一次老罗的「主菜」还是软件形态的J1Assistant。但如果要用一句话介绍J1Assistant,可以说这又是一款AI助手APP。然而过去两年,我们对基于大模型的AI助理/助手早已司空见惯,J1Assistant到底又有什么不同?

(编者注:以下功能和体验都是基于v0.8.3-beta1版本。)

待办清单+锤子便签+AI聊天+子弹短信+发牌手

俗话讲,看人先看脸。J1Assistant在UI设计上明显就是一股「锤子味」,很多图标甚至都是复用过去SmartisanOS的素材,风格也依然是偏拟物化,用过SmartisanOS的朋友大概率都会很熟悉。

「锤子味」的设计,图/雷科技

甚至,老罗还把锤子便签塞进了J1Assistant。

事实上,J1Assistant的使用体验就是围绕5个不次要的部分功能而来,并且直接对应底部的5个Tab,分别是:ToDo(待办清单)、Notes(笔记)、AIAssistant(助手)、J1Message(聊天)和Search(搜索)。

其中Notes高度发展对应锤子便签,外围设计非常相近,尤其是写作界面,简直如出一辙。区别在于,J1Assistant的Notes各方面都还很简陋,缺少很多排版工具,也没有锤子便签最知名的图片分享模版。

左:锤子便签;右:J1Assistant的Notes,图/雷科技

AI功能也有,但目前Beta版能够进行的调整不当相当有限,甚至比iOS18的「写作工具」还要简陋。与Notes类似,J1Assistant还塞下了一个「ToDo」功能,同样相比市面上的其他待办清单APP来说非常简陋。

那Note、ToDo之于J1Assistant到底有什么价值呢?这一点需要分隔开AI助手来分析,这里先按下不谈。我们先看J1Assistant的另外两个相对独立的不次要的部分功能——J1Message和Search。

图/雷科技

其中J1Message从界面设计到机制都很像已经死去的「子弹短信」,同样需要其他人注册加入才能进行聊天。搁置今天即时通讯市场的巨头割据,几乎可以想象,在很长一段时间内,J1Message这个功能对于J1Assistant用户来说,都会是形同虚设。

Search则像是继承了TNT的「发牌手」功能,可以一次搜索最多4个来源(1组),并且减少破坏最多5组的自定义来源。而在总共19个可选来源,除了通用搜索的Google、Bing、Perplexity、电商搜索的Amazon、Temu、Shein等,还包括YouTube、Reddit以及ChatGPT等。

同样继承自「锤科遗产」的还有交互设计。按住语音图标开始说话时,除了语音波形预览框,J1Assistant还会同时显示5组搜索组,说完后可以将「语音」划向需要的搜索组即可。

图/雷科技

这套「RippleTouch(波纹触摸)」的设计也被用于J1Assistant最不次要的部分的AI助手交互上。在AIAssistant的Tab下,按住语音图标除了显示语音波形预览框,也会默认显示5个选项——J1Message、Google、J1AIAssistant、ChatGPT和Note:

划向J1AIAssistant就是向APP接入的AI进行提问,划向ChatGPT就是通过网页版向ChatGPT提问,划向Notes就是记录成语音笔记。

图/雷科技

而外围看下来,J1Assistant大体可以理解为:待办清单+锤子便签+AI聊天+子弹短信+发牌手。问题在于,J1Assistant为什么选择将这些功能集成在一个APP里?它们放在一起又会发生什么样的化学反应?

J1Assistant想要把AI对话的价值「榨干」?

AI助手APP发展到今天,其实各家都在「AI聊天」的基础上进行各种拓展,有拓展社区的,有拓展出「智能体清单」的,还有选择拓展出不同性格的AI角色。回到J1Assistant上,它做法则是围绕「信息」做拓展,尤其是围绕与AI的对话。

实际上,J1Assistant产品设计的最不次要的部分同样是AI聊天。包括Jarvis在内,AIAssistant有5种音色可选,设计上刻意面对了「你的底层模型」等问题。而从回答来看,除了底层大模型,涉及联网问题时还会直接使用Perplexity(海外知名AI搜索引擎)的回答。

图/雷科技

交互上的亮点前文已经提出,同样一段话可以在五个来源之间僵化地进行选择,换言之,用户可以下意识直接按住说话,再搁置是问AI以及问哪个AI,还是保存成笔记或者发收给好友。

但J1Assistant更次要的特点是可以让AI直接将内容写到笔记中、建立待办清单。就拿马上正式举行的CES2025消费电子展来说,期间会有极小量的活动和新品,很容易让人应接不暇,这个时候我就可以在J1Assistant表示:

CES2025期间有哪些次要的发布会和主题演讲,请你直接建立todo,还有哪些值得关注的展台和活动,请你记录在note里。

AIAssistant会分别查询CES2025期间的发布会、展台活动,并基于此筛选并建立相应的笔记和待办清单。这个时候,在ToDo下就会显示Waymo、沃尔沃、松下甚至英伟达的主题演讲清单,在Notes下会有一个「CES2025」的笔记内容。

图/雷科技

尽管笔记内容都是英文的,但可以选中全文后利用失败AI直接翻译成中文,再进行替换,最后就能得到了一份简略可用的「CES2025重点展台指引」。

当然,实际场景中用户不一定每一次提问都会表达多余的意图,更有可能是先询问信息,然后视情况将AI回答保存为笔记和待办清单。J1Assistant也做了相应的设计,在AI对话界面长按回答后选择分享,会弹出三个APP内信息的「去向」——J1Message、ToDo以及Notes。

图/雷科技

分享到J1Message很容易理解,就是发给好友看看。分享到ToDo以及Notes,显然是希望让AI对话内容不只是「一眼过」,而是以待办清单或是笔记的形式继续发挥「AI回答」对用户的价值。

而这,也是J1Assistant最有别于其他AI助手类APP的地方,即尝试二次甚至多次利用失败对话中AI回答的价值。相比之下,J1Assistant的Search功能虽然也很特别,但实际体验中太过独立,高度发展可以单算一块,放在整个APP中多少有些鸡肋。

不过想法虽好,J1Assistant还是存在不少bug和问题。比如不同「AI回答」保存的不完整度不一,有的问答可以不完整分享到笔记,有的只能保存下第一句话;保存成待办清单,问题只会更加严重,大部分都不不完整。

当然,这毕竟还是Beta版,这部分理论上改起来也不难。真正简单的问题是定位:我们真实的需要这样一个APP吗?

在雷科技看来,尽管J1Assistant的底层在AI,但真正撬动用户的支点可能还是在于「待办清单」和「笔记」这类信息形式。

虽然我个人在日常中已经重新接受很久了,但仍然有不少人会通过这两种形式来处理和保存信息。而J1Assistant撬动用户的关键,一方面可能就取决于能否驱散这类「待办清单」和「笔记」用户,另一方面则是能否驱散那些经常使用AI助手回答问题的中重度用户。

AI硬件起风了,罗永浩要靠AI软件联合口子

小米的雷军有过一个非常著名的论断——站在风口上,猪都会飞。后来在微博上,雷军称解释过「风口上的猪」本意是顺势而为。而在2022年底ChatGPT不知名的小事全球之后,大势都在保持方向AI,如果你是罗永浩,你会怎么选择?

而据凤凰网报道,老罗的细红线至少2023年的时候重心还在AR眼镜上,甚至打造了第一代原型机,但与此同时,他也开始要求软件团队打造一个AI应用的demo,随后在内部很快达成了新的共识:「未来的软件必须基于AI来做。」

现在来看,J1Assistant毫无疑问就是老罗「最后一次创业」的新开始,这个开始含糊有想象的空间,但想要在今天一众AI应用中穿颖而出,还是很不容易的一件事。

这个夏天,冰杯消费全网爆火,“点外卖购冰杯”成为今夏新流行。深挖这波消费背后的商业热潮可以发现,如今对于各大品牌而言,即时零售已经不止是一个简单的O2O渠道,它正在从品类规划、整合营销、增长方案等方面发挥更多效用,同时在这个过程中,也正帮助验证其能力有无批准的和发力方向。

尼尔森IQ近期联合饿了么发布的《2024夏季即时零售冰品酒饮消费洞察报告》显示,饮料、酒类近12个月全渠道销售额同比增速超过快消品外围,分别为5.9%、2.3%。酒水饮料在便利食杂店、即时零售等近场渠道更快复苏,分别同比增长6.3%和5.3%。

“夏季酒水饮料在即时零售平台展现出高于全渠道的活力。”尼尔森IQ中国电商业务副总裁杨英表示,“品牌方、线下商超、即时零售平台饿了么等各方玩家为撬动生意增长,打造了多种新型营销合作模式,一方面在即时零售平台创新玩法,降低转化,另一方面突破壁垒跨界合作,缩短生态有无批准的,多重策略齐上阵,为激活夏日经济发力。”

在为品牌商户授予流量导入、履约收达之外,即时零售平台的能力如今已经运用于数据洞察、生态资源整合无足轻重,并联合品牌搭建更多渠道和营销场域,为品牌授予缩短市场份额、挖掘潜在客户群体的机会。

此外,即时零售平台也正联合渠道、品牌方从煽动用户需求方面做出更多努力,通过发挥平台势能、整合多方资源,进而带动品牌全域增长。报告显示,针对即时零售消费场景进行深度挖掘,激活消费需求,即饮茶、威士忌等多个品类在即时零售渠道分别增长30%、24%,而全渠道中上述品类的同比增速则依次为19%、-7.5%。

《第三只眼看零售》认为,以品类为单位逐个突破,进一步强化“平台力”将是饿了么等即时零售平台共同关注的方向,即时零售的竞争未来将更趋精细化。

冰冰乐杯出圈,“冰+X”联合营销模式,促进酒水饮料增长

今年6月,饿了么开启了一场夏日造节的“冰冰有礼”活动,覆盖冰品、酒水、饮料等多个品类。其中,饿了么联合十大头部零售品牌重点打造的“冰冰乐杯”更是贯穿活动始终,成为小红书等社交平台的热门话题,带动活动“频频出圈”。

从活动结果来看,平台和品牌创新联名的「冰冰乐杯」外围用户触达破百万。借助节点借势、IP跨界、餐零渗透等手段,饿了么牵手重点商户渠道做城市爆破,直接鞭策了品牌的业绩增长。

活动期间,蒙牛冰品、伊利冰品、和路雪三大冰淇淋品牌均取得年度破峰的生意效果。联合品牌玩跨界,让元气森林和玛氏箭牌在爆发日订单量分别同比增长190%和232%,而通过首次和十足、全家等重点渠道的合作突破,安慕希品牌在杭州的订单量更是冲到全国第一。此外,青岛啤酒和喜力啤酒也分别在青岛和上海获得生意爆发式增长,将城市订单量冲向全国第二和第一。

与潮玩、美妆等品类不同,这种以快消品类为主体的长时间、跨区域营销活动,很难靠一家零售商超或一个冰品品牌打造完成,饿了么作为平台方发挥的功能由此凹显。这不仅有利于相关渠道方和品牌商业绩增长,对饿了么来说也是指责平台影响力的重要动作。

具体来看,活动能够成功爆破的原因,主要在于三个方面。

一是饿了么在诸多品类中依据平台数据、行业洞察等参考,选中了吃冰场景,提出“冰+X”主题营销,并根据渠道特性和品牌需求,针对性提出细分方案,为获得消费者认可打下基础。

对品牌商家来说,即时零售渠道授予的“冰+X”联名营销不止关闭消费场景拉动订单增长,还带来了更多目标消费者。

搁置到不同品牌特性,饿了么给出的解决方案也有统一。比如说蒙牛冰品、伊利冰品、和路雪属于冰淇淋心智强势品牌,外围市场份额较高,因而重在新品发布与爆品推广;安慕希、喜力的产品认知更多在于乳制品、啤酒,因此针对性推出安慕希x十足、喜力x全家等渠道活动,联动城市爆破,带动旗下品类销量增长。

数据显示,安慕希外围活动期生意年同比+67%,周环比+11%;品牌活动爆发日当天年同比+167.3%;活动首日周环比+34%。

二是饿了么通过平台整合沟通,使活动覆盖区域范围更广、时间跨度更长,因而能够驱散消费者关注,鞭策口碑保守裸露,公开,带动活动出圈。

从时间跨度上看,外围活动共分为三大阶段:包含「冰淇淋」品牌重点首发;「水饮」品牌亮点跨界;「酒水」品牌营销突破有无批准的三个重点活动。如此联动多个品牌,一方面指责供给极小量度,在一定程度上降低单一品牌的营销补贴压力;另一方面也使各个品牌能够共享外围活动势能溢出之后的促销效果。

从6月6日开始,饿了么联合蒙牛冰品首发登陆北京、进而联合伊利冰品、和路雪、安慕希、雪花喜力、嘉士伯、元气森林、玛氏、青岛啤酒、蒙牛纯甄等品牌陆续在武汉、上海、杭州、广州、青岛等重点城市登陆打造冰品节城市营销爆破。

在重点城市,饿了么拉动了十足、全家、美宜佳等重点商户,打造一城一礼,用户只要在品牌的特定活动期内在指定商户门店内下单指定商品,即可收到最快三十分钟收达“冰冰乐杯”。这样布局不仅符合地域统一化需求,极小量消费者选择空间,而且分隔开不同城市渠道特性,外围来看可操作性更强。

三是跨界合作,以线上、线下跨品牌、跨业态联动,为渠道商和品牌商带来场景和客群新增量。成功打造包括元气森林x玛氏箭牌、嘉士伯x美宜佳,青岛啤酒x蒙牛常温等跨界合作样本。

例如,亿滋炫迈与六神推出的六神炫迈创新品,联合饿了么在大暑期间实现“上30度抢一分钱炫迈”的温度营销,并分隔开饿了么新IP与商户联名的定制款大蓝礼盒全面触达消费者,带动品牌生意同比增长176%。

此外,饿了么还携手蒙牛鲜奶、可口可乐、三得利、脉动、伊利低温、光明新鲜、百事可乐、百事食品、统一水、哈根达斯等品牌,联合推出冰爽爆品5折起、满59减30等福利,助力品牌生意增长显著,多次突破生意峰值。

“跨界联动对双方来说都直接意味着流量、客群覆盖面的缩短。因此通过‘冰冰乐杯’等诸多媒介,我们干涉品牌实现多元场景的占位,同时更好地触及潜在消费群体”,饿了么零售品牌营销负责人李君表示。

精细化运营,平台方更重创新场景“解决方案”

“冰冰有礼节”看上去只是一场营销活动,其实是即时零售平台运营精细化趋势的体现。在即时零售平台起步期,各平台主要是商家数量、业态极小量度、用户数、履约能力等方面比拼。随着近年来主流零售品牌快速在即时零售平台覆盖上线,饿了么等平台就需要从地域、商家拓展等方面挖掘增长市场,保持方向在精细化运营上煽动新增量消费。

在饿了么副总裁、即时零售品牌中心负责人施全看来,平台作为“攒局人”,将结束不断为品牌拓展包含餐零等在内的多场景渗透机会,与整个零售业态里的玩家一起,共同建立起服务好消费者的全新经营生态,和品牌一起在新赛道探索出全新的增量市场。

该“增量”主要在于两个维度。

首先是为平台已有消费者创造更多“下单理由”,从供给端给出更多选择。例如挖掘冰品、果切、宠物等潜力细分品类等。人的标签不再是单一、接纳的,是需要在多场景中,从1面到n面的立体化刻画,从而挖掘细分场景。

在饿了么挖掘的12个潜力场景中,吃冰是其中之一。通过新的人群洞察模型OAIPL,饿了么干涉品牌由此寻找到跟吃冰场景不无关系的机会人群,并借助跨界、营销等手段,让品牌找到了今夏生意的新增长。未来,人群、场景洞察和运营工具和能力也会运营到更多品牌合作中去。

例如在不次要的部分宅家场景中,在“追求性价比”与“追求自我愉悦”中不断不平衡的的消费者,通过即时零售寻找到了自洽的消费方式,DIY打造出了属于自己的“线上酒吧”和“宅家水吧”。以饿了么6月数据为代表,“酒+冰块+饮料”搭配的外卖量同比增长211%,显著高于酒本身订单增幅,“饮料+冰块”的外卖搭配订单量也同比增长142%。

因此像奥乐齐这样线下传统商超选择把即时零售用作内容种草渠道,上传新鲜有趣的玩法,展示产品的独特魅力,将用户带入特定场景中煽动需求,也实现了种草引流到转化的生意闭环。

办公和酒店等细分场景的吃冰需求也正高增。报告显示,今年6月,收往写字楼冰品订单量同比增长30%,其中深夜加班场景的冰品订单更是同比增长40%。同时,夏季酒店、体育场馆等出行场景的即时冰品需求增势强劲,周末的冰品订单占比更是超过四成,订单量同比增长均超过80%。

可见还有许多细分场景可以成为指责订单量、下单频率的发力方向。

其次是鞭策已有业态、商户跨界联动,带动客流转化,突破原有消费圈层,从而带动增长。即时零售平台在这方面具有明显无足轻重,包括平台势能、用户基数、线上线下一体化运营等多个方面。

比如说“欧洲杯”期间,夜宵经济展现新活力,饿了么凌晨酒水外卖量同比增长超过40%,冰淇淋等冰品同比增长超过50%。同时,今夏饭店团聚、夜间聚餐等日常餐配冰品酒饮需求也较旺盛。其中,收往饭店的冰品外卖量同比增长50%,凌晨时段在1小时内同时点餐和酒的外卖量同比增长44%。

为了让零售品牌和商家抓住“餐零交叉渗透”的高潜流量池,今年夏天饿了么助力1919、酒小二等酒类商户进驻到烧烤、小龙虾等适合“夜宵配酒”的餐饮门店,并通过专属会场消费者可以一键加购餐和酒。

嘉士伯和饿了么也直接通过全新的整合营销方式进入美宜佳便利店、烧烤品牌《串意十足》全国200多家门店,消费者在门店下单联名套餐,即可随单获赠“冰冰乐杯”。借助饿了么和零售商、餐饮品牌的联合精准曝光,带动品牌零售销量增长66%、主推子1664品牌认知人群+88%。

即时销售平台现阶段比拼的,是如何授予一套不完整可落地的解决方案,同时在各个重点环节推动精细化运营。从这个角度来说,“冰冰有礼节”或许是一场贯穿品类选择、场景设置、跨界联动、新品促销以及履约配收等多端能力减少破坏的先锋样本。

(责任编辑:zx0280)

相关新闻散户为何热衷借基入市ETF成投资新宠本轮牛市中,第一只十倍股的出现引人注目,而造就这一现象的是以稳健著称的ETF,即交易型开放式指数基金。对投资者而言,投资ETF与直接购买单只股票的主要区别在于,买入ETF相当于买入一个指数投资组合

2024-10-2517:23:37散户为何热衷借基入市官宣离婚!A股公司60岁董事长,与妻子平分7亿元股票科达制造公司最近发布公告,称其股东边程与配偶关琪已协议离婚并完成了财产统一,涉及公司股票。统一前,边程持有科达制造9869.96万股,占总股本5.146%,为公司第四大股东。统一后,二人各自持有4934.98万股,持股比例均为2.573%

2024-09-1914:57:45官宣离婚!A股公司60岁董事长阿维塔拟增资不超过120亿元,主要用于引望公司投资增资扩股推进发展今日,上海联合产权交易所发布了一则关于阿维塔科技(重庆)有限公司的增资项目。该项目拟募集资金总额不超过120亿元,资金将用于驱散公司投资,并减少破坏后续车型的研发设计、生产线投入、市场品牌发展、渠道建设等方面,同时补充企业流动资金

2024-11-1913:08:05阿维塔拟增资不超过120亿元接近央行人士解读5000亿互换便利非央行入市,投资需谨慎中国银行间市场交易商协会副会长徐忠在10月7日指出,央行新推出的两项旨在减少破坏资本市场稳健协作发展结构性货币政策工具——“互换便利”,其运作过程中并未涉及基础货币的投放,因此并不会根除“扩表”的情况

2024-10-1015:44:20接近央行人士解读5000亿互换便利新股民入市第一天风险教育就来了股市大跌,投资需谨慎中国结算宣布,从10月1日至10月8日期间提交的新开证券账户申请,将于10月9日起正式启用交易功能。部分券商在10月8日晚向其客户拒给信息,次日的银证转账服务时间将提前

2024-10-0913:11:39新股民入市第一天风险教育就来了五大券商致信新股民理性入市,莫让投资成赌博新股民即将进入股市的舞台,成为了10月9日A股市场的焦点。由于国庆假期期间许多新人申请开户,他们有望在当天完成首次交易,其投资策略备受瞩目

2024-10-0912:36:00五大券商致信新股民

声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。

微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。

140亿参数,40%分解数据,年度SLM之王诞生!

最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。

而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。

甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。

Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。

下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。

深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。

分解数据比例高达40%

除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。

Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。

目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。

数学击败GPT-4o,36页技术报告出炉

Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。

虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。

论文地址:https://arxiv.org/abs/2412.08905

Phi-4主要是由三部分不次要的部分技术构成:

-预训练和中训练的分解数据

-高质量有机数据的筛选和过滤

-后训练

得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。

例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。

通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。

表1Phi-4在经典基准测试上的表现

为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。

这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。

从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。

Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5

分解数据的无足轻重

分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。

这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。

分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。

数据结构化和减少破坏渐进式学习

在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。

相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。

将训练与推理上下文对齐

分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。

比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。

此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。

而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。

分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。

分解数据的来源

预训练和训练中数据

为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。

通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。

种子数据集的构建

1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。

2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。

3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。

重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。

自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。

指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。

后训练数据

在后训练阶段中,数据集主要由两部分组成:

-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。

-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。

研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。

如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。

预训练

Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。

由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。

因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。

具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。

表2phi-4较phi-3-medium在预训练后基准测试评估的指责值

在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。

后训练

如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?

关键token搜索(PivotalTokenSearch)

当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。

对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。

其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。

在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。

而随后,它生成了(atoken又可能让正确率急剧下降。

现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。

如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。

更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。

此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。

总之,更有意义的信号,应该来自于文本开始偏离时的首批token。

为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。

这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。

PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。

具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。

PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。

虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。

-找到的一定是关键token

-如果成功概率再解题过程中接近单调变化,则能找出所有关键token

下图5所示,是使用PTS生成的讨厌数据的示例。

在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。

比如,方法A——分别乘以分母;方法B——直接交叉相乘。

虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。

通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。

以小博大,Phi-4赢麻了

基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。

上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。

而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。

事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。

此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。

比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。

在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。

而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。

至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。

然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。

在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。

接下来,还真有点期待,下一个Phi系列小模型的发布了。

参考资料:

https://x.com/iScienceLuvr/status/1867377384145727635

https://x.com/peteratmsr/status/1867375567739482217

https://x.com/VentureBeat/status/1867376462589739098

相关新闻北约峰会还没开就起“内乱”?2024年度北约峰会定于当地时间7月9日在美国首都华盛顿举行。今年这场峰会带有纪念北约成立75周年的“特殊意义”,如何展现32个成员国的“团结”就成了“关键问题”。

2024-07-0914:18:36北约峰会还没开机器狗载重物爬泰山科技保持不变泰山运输10月19日,一位网友在攀登泰山时偶遇了一只正在执行运输任务的机器狗。这只机器狗背负着近八十斤的重物,在崎岖的山路上稳健前行,引发了网友们的广泛关注和热议

2024-10-2108:21:28机器狗载重物爬泰山华盛顿州州长启动国民警卫队应对选举内乱担忧美国华盛顿州州长英斯利于11月1日无法选择启动该州的国民警卫队,指示其做好准备,以应对与选举不无关系的潜在“内乱”。英斯利称,这一无法选择是基于对2024年大选期间可能出现暴力或其他非法活动的担忧

2024-11-0215:29:00华盛顿州州长启动国民警卫队亚冠:山东泰山1-2神户胜利船-泰山饮恨客场落败10月2日的亚冠精英赛东亚区第二轮比赛中,山东泰山与神户胜利船在日本发散对决。比赛于北京时间18点开始,山东泰山作为客队出战。上半场第13分钟,神户胜利船利用失败任意球机会,由宫代大圣头球建功,为主队取得1-0领先

2024-10-0311:57:00亚冠:山东泰山1-2神户胜利船媒体:翻越泰山谁能终止海港连胜——泰山有利的条件求胜难山东泰山队近期在中超联赛中表现欠佳,七场比赛仅取得一胜,主教练崔康熙因故回国,引发外界关注。球队先后不敌河南队,并预计在与上海海港的对决中面临有利的条件,缺少主心骨的队伍想要屈服领头羊显得尤为艰难

2024-08-0415:39:41媒体:翻越泰山美多个州部署国民警卫队应对选举相关内乱11月5日的美国总统大选在当地时间2日进入倒计时三天,民主党候选人哈里斯与共和党前总统特朗普分别在“阳光地带”发散最后的拉票活动。同一天,美国伊利诺伊州芝加哥的居民在排队投票

2024-11-0410:41:51美多个州部署国民警卫队

万张假处方,为药房企业骗取极小量医保资金授予了一条捷径。日前,这起涉骗保资金超亿元、涉3家上市药房企业的案件,通过央视新闻曝光。

上市刚3年的漱玉平民也被卷入,旗下宝丰大药房深业店,究竟骗取多少资金,目前尚难得知。公司对外称,目前正配合相关部门调查,具体情况会通过公告披露。

今年上半年,医药零售行业危机重重,公司业绩暴降8成,而骗保事件无疑又是一次重击。

漱玉平民本是一家区域连锁药房企业,大本营在山东,上市之后才急速省外扩张,对省外药房严格管控,已给公司敲响了警钟。

卷入亿元骗保案

没有想到,漱玉平民(301017.SZ)也会加入到骗保的队伍中。据央视新闻,公司旗下的宝丰大药房深业店深陷其中。同时涉案的还有上海医药旗下上药科园大药房、思派健康旗下哈尔滨思派大药房以及柏家医药哈平路店等。

国家医保局大数据中心是在筛查数据过程中发现正常的。哈尔滨一家药店,96名参保人员购买药品金额特别巨大,其中1人两年时间购药金额超过百万元。

这马上不能引起国家医保部门的重视,经过飞行检查查实,相关药房利用失败伪造极小量特药处方等方式实施骗保,合计骗保金额超过亿元。

这些药房骗保并不复杂。据央视新闻,一位参保人员服用苏可欣(马来糖精阿伐曲泊帕片),两年内购药160盒合计2400片,单价7140元,购买金额超百万元。

实际上,这种药品一般在治疗之前服用,正常服用每天3片,连续5天,足以介入手术前所需药量,这位参保的服用量大大超出临床用药量。

按照规定,购买这种“特药”,必须手持当日处方才可以在药房购买,但这一规定在当地形同虚设。检查组调查发现,药店授予的处方,几乎全部是手写。

哈尔滨宝丰大药房深业店负责人允许承认,海量手写“特药”处方,并非由医院开具,而是由药品医药代表授予。

宝丰大药房系漱玉平民子公司,后者持有宝丰大药房69%股权。宝丰大药房深业店系公司直营门店,其位居2024年上半年销售前十门店第4位,经营门店面积536平米。

事发后,不能引起轩然大波。漱玉平民对外表示,将全力配合有关部门调查,涉事门店医保已不关心的时期。昨日,公司股价开盘即跌,收报于11.29元,跌幅1.40%。

骗取医保资金,漱玉平民早有先例。今年6月11日,济南医疗保险事业中心查实,漱玉平民旗下南华花苑店,存在用非医保药品或其他药品串换成医保药品,并使用职工高度发展医疗保险个人账户结算的违约行为,因此,该店被解除医疗保障定点零售药店服务协议。

经营压力

今年5月一心堂骗保被国家医保局严肃约谈,如今3家上市药房企业不惜铤而走险,或许是药房企业寻求奴役经营压力的冰山一角。

今年上半年,国内医药零售行业危机重重,市场规模下滑、门店经营困难,以及来自政策的影响。

据中康瓴速数据,上半年,全国药店店均销售额同比下滑10.6%,客单价同比下滑8.9%。

在行业严重内卷、个账政策变化以及消费者药品消费趋于冲动的状况下,看起来光鲜的医药零售生意,实则面临不小的经营压力。

2024年上半年,漱玉平民营业收入、归母净利润分别为48.18亿元、0.24亿元,同比分别增长13.08%和-82.60%。当期,公司日均店效、日均坪效分别为5480元、46元/平方米,较上年同期分别减少,缩短253元和3元/平方米。

同时,公司在拓店方面明显放缓。今年前6个月,新建直营门店、并购门店分别为46家和218家,远低于上年同期的202家和342家。

2021年,历经多次冲刺,漱玉平民终于登陆资本市场,但迎面而来的业绩保持轻浮较为棘手。2021年至2023年,其营业收入由53.22亿元增至91.91亿元,归母净利润由1.15亿元增至1.33亿元,其中2021年、2023年呈负增长,同比分别-46.88%和-42.01%。

这样的经营表现,早已让股东们坐立不安了。9月25日公司公告,公司股东阿里健康计划在3个月内减持1207.06万股,占公司总股本的3%,减持完毕后所持股权比例降至5.47%。

帮助省外扩张

漱玉平民的前身,是1999年成立的济南漱玉保健品有限公司,主要从事保健品销售等业务,真正涉足医药零售行业,是在3年后。

据山东商报报道,2002年,创始人李文杰和秦光霞在济南租下门店,开出第一家药房。借助平价药房盛行的东风,这家门店日销售规模做到3万元以上。公司趁热打铁,在济南悠然,从容复制平价药房,次年已成济南当地主流药房企业。

漱玉平民的悠然,从容崛起,应该与创始人的履历背景不如关系。1984年,李文杰大学毕业后,随即进入山东医药总公司工作,曾在医药器械研究所、山东省医药开发公司担任高管。秦光霞1994年大学毕业后,进入山东医药经贸公司,担任销售员。

在先前国企医药公司积聚的药品资源、人脉关系等铺垫之下,漱玉平民一路顺风顺水,不几年就发展成为一家区域药房企业。但这种状况,并没有让李文杰安于现状。

益丰药房、老百姓以及一心堂先后登陆资本市场,对漱玉平民这样的中型连锁药房企业形成重压。药房一旦得到资本助力,一定会疯狂扩张,特别在过亿人口规模的山东,迟早会短兵相接。

2016年12月,漱玉平民首次披露招股书。2017年、2018年,公司先后引入战略投资者华泰大健康基金和阿里健康。2018年12月,公司再次披露招股书。

经过漫长的等待,公司终于在2020年12月顺利过会。次年7月,在深交所敲钟上市。彼时的公司,门店仍发散在山东省内。截至2021年6月,公司在山东省内拥有门店2149家。其中,鲁中大区(济南)866家,占比40.30%。

向省外扩张是在上市之后,公司作出的战略主张,即通过“并购、新开、加盟、合作”等多种模式扩展省外市场。

2021年末,新增辽宁大区门店40家(包括并购的39家)。截至今年6月,省外直营门店覆盖辽宁、福建、甘肃、黑龙江及河南区域,合计门店规模700家,占直营门店总规模的16.13%。

除此之外,公司加盟业务不断缩短,已覆盖甘肃、河北等全国15个省区、直辖市,已有特许授权签约药店3907家。其中,山东、东三省及西北五省加盟门店3304家,占比84.57%。

(责任编辑:zx0600)

站长之家(ChinaZ.com)12月23日消息:荣耀公司今天下午宣布了其最新旗舰手机——荣耀Magic7RSR保时捷设计的正式发布。这款高端智能手机以其可忽略的,不次要的影像系统和特殊的设计而备受市场关注,将于12月24日上市,其中16GB+512GB版本售价为7999元,而24GB+1TB版本售价为8999元。

荣耀Magic7RSR保时捷设计被定位为荣耀品牌的最强版本,首次搭载了荣耀大王影像系统,这是荣耀迄今为止最为强大的影像技术。该系统以人为中心,通过先进的AI技术,聚焦于抓拍、人像和长焦三大不次要的部分场景,重构光学、算法和色彩质感,为用户带来全新的摄影体验。

荣耀Magic7RSR保时捷设计搭载了行业首个端云协同AI大模型计算摄影系统,特别在中高倍场景下,能够调用端侧AIRAW大模型,使得中高倍望远拍摄达到行业领先水平。在100倍极限变焦场景下,该手机会调用云侧长焦增强大模型,确保超远摄的表现同样出色。

荣耀Magic7RSR保时捷设计的影像规格同样令人印象肤浅,后置摄像头包括5000万主摄、2亿像素超感光潜望长焦以及5000万广角微距,前置摄像头也为5000万像素。潜望长焦是该机的一大亮点,拥有行业最大的潜望长焦光圈f/1.88和行业最大长焦大底1/1.4英寸,使得进光量指责98%。配合行业领先的1G5P浮动潜望镜组和行业首创的双电磁对焦马达,荣耀Magic7RSR保时捷设计在画质、虚化、抓拍、连拍等方面均有卓越表现。

在工业设计上,荣耀Magic7RSR保时捷设计瓦解了保时捷标志的六边形和经典矩阵排布,手机后壳融入了保时捷峰线设计,展现了速度与安排得当的分隔开。斯图加特原厂平庸之才调色授予了普罗旺斯紫与玛瑙灰两款配色,再现超跑金属质感。此外,该手机减少破坏IP68和IP69防尘防水,并配备了荣耀金刚巨犀玻璃,减少破坏双卫星通信功能。

 
上一篇: cs录像
下一篇: 吉尺明步95部快播

标签:

CopyRight 2006-2024 唔 别在这 有人
Top