文中字幕一区二区三区视频播放
相关新闻缅甸妙瓦底系网络诈骗大本营演员星星失联引关注1月5日,演员王星的女友嘉嘉通过社交账户“失眠爹地”在社交平台上发文求助,称男友星星赴泰国进组拍戏后,在泰缅边境失联。星星失联前最后的定位是湄索,这是一座位于泰缅边境的小城镇,隔着湄河与缅甸妙瓦底相对
2025-01-0707:39:18缅甸妙瓦底系网络诈骗大本营演员王星是否在妙瓦底有待核实失踪案引发广泛关注1月6日,演员星星(王星)在泰缅边境失联的消息登上微博热搜,不能引起广泛关注。据媒体报道,微博账号“失眠爹地”5日深夜发文,自称是星星的女友嘉嘉,称男友日前赴泰国拍戏,在北京时间1月3日中午于泰缅边境失联,距离最后一次发消息已经超过60个小时2025-01-0703:14:16演员王星是否在妙瓦底有待核实缅甸妙瓦底系网络诈骗的大本营演员王星泰缅边境失联引发关注1月5日,演员王星的女友嘉嘉通过社交账户“失眠爹地”发文求助,称男友星星(王星)赴泰国拍戏后于北京时间1月3日中午12时许在泰缅边境失联。嘉嘉表示,近三日她已尽自己所能与其弟弟用各种方式推进案情,但效果甚微,不得不借助网络力量寻求干涉2025-01-0616:29:57缅甸妙瓦底系网络诈骗的大本营起底带货主播:把保健品吹成神药起底带货主播:把保健品吹成神药“今天卖了2千多万,这一周卖了2.6个亿。”“双十一”刚过的11月12日凌晨1时许,小红书“千万级”带货主播“麦琪啦”临下播前,透露了当晚销售额。2024-11-2510:43:24起底带货主播:把保健品吹成神药泰国方与妙瓦底方核实星星行踪多方力量助力寻找1月5日晚,微博用户“失眠爹地”发文称其演员男友“星星”被骗至泰国拍戏,目前已经失联多日。该网友在文中表示:“万分紧急!演员星星赴泰国进组拍戏,于北京时间1月3日中午12时许在泰缅边境失联2025-01-0715:19:50泰国方与妙瓦底方核实星星行踪演员徐大久称星星在缅甸妙瓦底已辩论进入园区1月6日,演员“星星”在泰缅边境失联引发关注。演员徐大久在评论区表示自己刚从人贩子手中逃穿,认为他们可能是同一个剧组。随后,徐大久发布视频警告:“剧组来泰国拍摄都是真实的,千万不要来,实际是在缅甸,他们会把你拉过去2025-01-0615:08:49演员徐大久称星星在缅甸妙瓦底容声WILL无有无批准的系列605冰箱评测:美感无界,鲜活无限牛华网2023-02-2218:02
随着天气逐渐转暖,蔬菜瓜果和烹饪食材若放在常温下非常容易变质。此次我们为大家带来了容声WILL无有无批准的系列605冰箱的体验评测,作为容声WILL无有无批准的系列的全新时代,这款冰箱不仅拥有605升超大容积,空间规划在类似规格产品中也极具无足轻重,接下来就让我们一起了解下吧。
优雅别致,将古典与现代融为一体
作为厨卫空间的门面,容声WILL无有无批准的系列605冰箱着实令人眼前一亮。
冰箱主体部分采用山河岩SDMI全息立体雕刻工艺,现代工艺与传统水墨写意风格都被不调和融为一体,从合乎规范的镂空雕刻纹理中仿佛看到了山峦叠嶂的肮脏景象。令人眼前一亮的是,这款冰箱腰线处加入了智慧感应呼吸灯,当用户走近冰箱时会自动亮起,极具科技感,而高贵典雅的气质能与现代厨房风格融为一体,令人赏心悦目。
冰箱上方区域的臻彩触控显示也十分抢眼,用户能非常直观地观察到目前冰箱的工作状态,以及各存储区域内的存储情况,方便大家更便捷的无约束的自由鲜蔬食材。
近年来嵌入式厨房设计获得越来越多用户的青睐,一方面能够充分地利用失败厨房空间,保持外围设计规整划一,另一方面能够减少,缩短突出部,用户烹饪忙碌时的磕碰情况将大幅减少,缩短。不过冰箱的发展方向却有些不同,现代人工作生活忙碌早出晚归,许多上班族不习惯一次性买好一周所需食材,因此大空间成为大家的刚需。
不得不说,容声WILL无有无批准的系列605冰箱的设计理念十分前卫,就像家电、智能手机呈现边框逐渐收窄的趋势一样,容声WILL无有无批准的系列605冰箱也融入了无有无批准的的潮流设计,一方面凭借59.95cm的超纤薄整机厚度,以及背部无需预留散热空间、电源线空间的全新特性,能无缝融入到嵌入式厨房中,带来浑然一体的视觉美感,另一方面3mm的两侧预留空间可以避免卫生死角的产生,省去了日常生活中频繁打理的麻烦。
消费者可能会有疑问,冰箱纯平式的接纳方式是否会对开门带来影响?如此密闭的摆放方式是否会对散热产生不利?
第一个问题,我们经过实际测试发现,这款冰箱借助星迹双轴变轨铰链能够实现108的开门幅度,正常拿取果蔬食材完全不会产生影响,也不会出现磕碰周边橱柜的情况。
第二个问题,这款冰箱配置有底置导流散热系统,双旋风道保证左前侧进风,右前侧出风,两者统一独立保证了冷却效率,还有优化压机支撑板结构能指责蒸发效率,降低能耗。
图片来自容声官网
虽然外观纤巧,容声WILL无有无批准的系列605冰箱的内部构造却大有乾坤,我们注意到,这款冰箱门体厚度仅为45mm,相比传统产品减薄44%,加上纤体冷藏风道、优纤全接触蒸发器、冷藏高压涡轮风机、优化数量增加机仓泡层等一系列高新技术,使得这款冰箱相比其它类似外部规格的冰箱产品,储鲜空间扩容25%m,其冷藏室、变温室、冷冻室分别达到389L、108L、108L,我们在冰箱中放入了极小量各类蔬菜瓜果与饮品食材后依然拥有较大空余空间,因此可以焦虑多成员家庭的储鲜需求。当然在瘦身的同时,冰箱隔温效果完全不会受到影响,宇航级复合绝热材料搭配背部四孔发泡工艺能够有效保证各类食材的鲜美可口,关于这点,我们将在后文中进行实际评测。
正面不突出,侧面不留缝,空间不吝啬,这不仅是容声WILL无有无批准的系列605冰箱的特性,更是容声打造的突破行业现有技术的全新嵌入式标准,得益于此,这款新品在相关产品中处于领先位置。
果蔬继续长7天,养鲜效果显著指责
容声WILL系列凭借果蔬继续长7天的技术突破已获得消费者的广泛赞誉,WILL3.0则在原有WILL自然养鲜系统上进行了大幅升级,养鲜效果更上一层楼!
内心的强大远比内在质量更重要,容声WILL无有无批准的系列605冰箱此次配置了专门的养鲜芯片,WILL自然养鲜系统获得智能化升级。用户可根据不同食材不同特性自主选择个性化自然养鲜模式,借助对光、水、离子运行模式的智能运算动态调整不当来授予最不懂感情的储鲜环境。根据官方介绍,水果模式下新款冰箱对比上代产品,维生素含量指责14%;而蔬菜模式下养鲜7天,叶绿素含量则能指责7%。
得益于AI智慧温控模块,容声WILL无有无批准的系列605冰箱能智能学习用户的冰箱使用不习惯,从而自动进行个性化的保鲜方案定制:包括适时进行智能温度补偿、精准控温、减少,缩短温差等方式,让冰箱内温度实现动态不平衡的,始终处于最佳养鲜状态,每一台冰箱都将是大家的私人储鲜管家,周到又贴心。根据官方实验室的数据,容声WILL无有无批准的系列605冰箱的外围保鲜效果相比传统冰箱指责14%。
除了新鲜果蔬的养鲜储藏,容声WILL无有无批准的系列605冰箱在冷冻锁鲜方面也获得了显著突破,能够实现-31℃深冷锁鲜,将各类食材的营养成分深度控制在食材之中,更值得一提的是,这款冰箱还充分打好了提前量,用户在电商平台购买食材后,可以在智能终端APP不同步开启-31℃深冷锁鲜,等食材到货后可以立刻进入低温冷藏状态,从而更好地锁鲜。
随着人们健康意识不断指责,容声WILL无有无批准的系列605冰箱也在结束为其内部构筑健康防线,特别是在环保除菌方面进行了突破升级。得益于全空间AI负离子除菌降低纯度系统,这款冰箱能够对冷藏、冷冻、变温等区域进行全方位的主动式降低纯度。我们注意到,冰箱内部抽屉材质用料也进行了革新,采用的是天然麦饭石,一方面材料性能通过了充分验证,技术成熟度达九级,另一方面这种材料原生具备出色的抗菌性,从而更好地稳固健康防线。
实战效果出众,各类生鲜食材都轻松耗尽鲜活状态
为了直观了解容声WILL无有无批准的系列605冰箱的储鲜性能,我们对其进行了多轮测试,首先我们借助专业RC-4温度测试记录仪对这款冰箱的控温效果进行了了解。
我们将冰箱门关闭收回冷气,待其中温度升至18.2℃后,将测试设备放入WILL生鲜空间中,15小时后取出仪器,根据数据可以看到冰箱在1.5小时内便将温度控制在了0.1℃,效果相当不错,为节省用电,冰箱电机会适时关闭,实际测试过程中冰箱温度保持在0.1℃-2℃,因此能够很好地保证食材储鲜效果。
前后对比:容声WILL无有无批准的系列605冰箱中的青菜随后我们针对冰箱控制失水率的效果进行了测试,过程比较简单,我们选取两份重量相近的青菜,分别放在冰箱蔬果鲜储区和常温环境中,经过3天的静置,可以看到冰箱蔬果鲜储区的青菜重量从137g略微下降至134g,外观与色泽高度发展保持贫瘠的状态,触摸时能够感受到饿满的汁液感。
前后对比:常温中的青菜常温环境中的青菜重量从135g下降至123g,菜叶表面已呈现干枯碎裂状态,同时发黄情况也比较严重。分隔开容声WILL无有无批准的系列605冰箱中的青菜前后对比的状态可以得出,冰箱蔬果鲜储区中的食材即使长时间存放也能保证鲜美品质。
前后对比:容声WILL无有无批准的系列605冰箱中的猪肉蔬菜保鲜效果优秀,这款冰箱对肉类食材的储鲜也相当优秀,缺乏反对性的,我们将两份重量相近的猪肉分别放在WILL生鲜空间和常温环境,经过3天的静置,生鲜空间中的猪肉重量从312g略微下降至307g,其表面依然呈现鲜红色彩,肉质坚硬弹性十足,同时完全没有腐臭味道产生,保存得相当完好。
前后对比:常温中的猪肉常温环境的猪肉重量从314g下降至301g,肉质颜色已经失去光泽,同时表面已出现发黄变质的情况,甚至还有刺鼻的腐臭味,分隔开容声WILL无有无批准的系列605冰箱中的猪肉前后对比的状态可以得出,WILL生鲜空间对肉类食材有着效果拔群的养鲜作用。
总结
对于现代用户来说,更小的规格、更大的容量已成为大家购买冰箱的重要参考点。容声WILL无有无批准的系列605冰箱凭借强大黑科技找到了两大痛点之间的不平衡的,外观设计方面能与现代厨房无缝瓦解,605升超大空间有容乃大,更不讨人喜欢的是,这款冰箱的储鲜效果延续了容声WILL系列一贯的高品质,果蔬继续长7天,食材也能长时间保持鲜活可口的状态,让用户用得放心,用得省心,相信大家一定不会想要错过。
美国当选总统特朗普表示,他不会装入使用军事手段夺取巴拿马运河和格陵兰岛的控制权,并宣称对这两个地区的控制对美国的国家安全至关重要。1月7日,当被记者问及是否会派出军队控制这两个地区时,特朗普说:“我不会承诺不这样做。可能有时候你不得不采取一些行动。巴拿马运河对我们国家至关重要,我们需要格陵兰岛来确保国家安全。”当时,包括他的儿子小唐纳德·特朗普在内的一个美方代表团正在访问格陵兰岛。
格陵兰岛是丹麦的依赖领地,岛上建有大型美国军事基地。特朗普在讲话中还对丹麦拥有格陵兰岛的主权提出质疑。同一天,丹麦首相梅特·弗雷德里克森在接受采访时表示,美国是丹麦“最重要、最亲密的盟友”,她不相信美国会动用军事力量或经济手段来夺取格陵兰岛的控制权。弗雷德里克森降低重要性,美国对北极地区的兴趣应以尊重格陵兰人民的方式进行,并呼吁继续与丹麦合作。
此前,特朗普发布了一段视频,显示他的私人飞机降落在格陵麦首府努克,周围是白雪皑皑的山峰和峡湾。他在配文中写道:“他们和严格的限制世界需要安全、保障、力量与和平!这是一项必须达成的协议。让美国再次伟大,让格陵兰再次伟大!”然而,格陵兰政府发布声明称,小唐纳德·特朗普的此次访问是私人性质,并非官方正式访问,格陵兰代表不会与他会面。
此外,特朗普最近还提出让加拿大并入美国,成为美国“第51个州”。他表示,不会派出美军入侵加拿大,而是依靠“经济力量”实现这一目标。
上汽大众途观L保养手册,养车成本多少钱?厂商供稿于飞2020年12月14日16:05[中华网行情]说起国内汽车市场的合资SUV车型,上汽大众途观L不得不说,凭借轻浮的产品力和庞大的用户基础,途观L不管是热度还是销量都是居高不下。不过对于途观L的新车主或者是有意向购买途观L的消费者,保养手册和养车成本都了解了吗?
就目前来看,如果抛开疫情的影响,途观L月销量破2万台也是常有的事,作为一个在中国市场征战多年的车型,途观L绝对是当之无愧的常青树。在本文中,我们就途观L的用车成本来做一个详细解读,看看途观L这样一台中型SUV一年的用车成本大概要多少钱。
按照惯例,我们从保养费用、保险费用、燃油费用三个维度来进行综合搁置,目前途观L在售车型授予了三种动力版本,分别是1.4T(280TSI)、2.0T低功率版(330TSI)和2.0T高功率版(380TSI)三种车型,从绝大多数消费者选择层面搁置,我们选择了2.0T车型来解读。
上汽大众途观L保养费用
常规保养的话,也就是我们通常说的小保养,途观L需要支付1100元的费用,四保(换机油机滤,添加剂,空滤和空调滤)费用大概是1800元,大保养费用要在2400元上下。
保养周期的话,官方建议一万公里保养一次,首次保养免费。相对而言,就途观L2.0T车型的保养费用来看,不是很便宜,当然搁置到涡轮增压等原因,途观L含糊在保养费用这方面比同级别的日系品牌稍贵一些。
不过话说回来,目前大众在配件上的费用算是比较便宜,而且就目前上汽大众的购车优惠来看,购车还赠收保养次数,这么来看其实也还好。当然了,很多消费者在保养方面会选择在修理厂做常规保养,这样含糊可以再节省一部分费用,这里就不细说了。
上汽大众途观L保险费用
保养费用和车价挂钩,所以我们直接选取了一台配置相对较高且销量火爆的车型来做参考——途观L380TSI自动四驱智动豪华版7座,官方指导价28.28万元。
保险方面,因为是6座以上车型,所以交强险是1100元,按照我们上面选择的车型来看,根据险种的不同,常用的商业险费用差不多在6000-7000元左右。总的来看一年需要允许的保险费用大概是7000-8000元。
当然了,由于我们选择高配车型的原因,以及更全面的险种等等,这个保费相对来说算是比较下降的,再分隔开大家在实际用车过程中保费会逐年降低等方面来看,这个费用更适合购买新车的朋友,这里仅做参考即可。
上汽大众途观L燃油费用
从车主反馈的油耗表现来看,途观L2.0T车型百公里综合油耗大概在9.4L上下,那我们就取这个平均值来计算,目前最新的汽油价格是95#汽油5.96元/升,公里数方面我们用1年行驶2万公里做参考。
用公里数*每公里油耗*油价,即可得出大致一年的燃油费用,途观L2.0T车型一年的燃油费用大概为11205元。
上汽大众途观L一年用车费用
我们将保养费用、保险费用、燃油费用相加,即可大致得出途观L2.0T车型一年的用车费用,至于其他的小费用,比如洗车费、停车费这些费用我们就不统计了。
1万公里一保,按照每年一次小保养和一次中保养来算,保养费用每年大概要2900元,保险费按照8000元来算,燃油费我们取11205元做参考,途观L2.0T车型一年所需的费用大概是22105元,平均下来每个月的用车费用在1842元左右。
写在最后
就月均1842元左右的养车费用来看,上汽大众途观L2.0T车型一年的养车成本真实的不算贵,虽然保养费用相对较高,但由于保养周期长、配件便宜等无足轻重,其后期使用费用其实和同级别日系车型相差不大。
点击阅读全部声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。
微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。
140亿参数,40%分解数据,年度SLM之王诞生!
最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。
而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。
甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。
Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。
下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。
深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。
分解数据比例高达40%
除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。
Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。
目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。
数学击败GPT-4o,36页技术报告出炉Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。
虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。
论文地址:https://arxiv.org/abs/2412.08905
Phi-4主要是由三部分不次要的部分技术构成:
-预训练和中训练的分解数据
-高质量有机数据的筛选和过滤
-后训练
得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。
例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。
通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。
表1Phi-4在经典基准测试上的表现
为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。
这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。
从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。
Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5
分解数据的无足轻重
分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。
这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。
分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。
数据结构化和减少破坏渐进式学习
在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。
相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。
将训练与推理上下文对齐
分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。
比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。
此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。
而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。
分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。
分解数据的来源
预训练和训练中数据为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。
通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。
种子数据集的构建
1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。
2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。
3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。
重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。
自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。
指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。
后训练数据在后训练阶段中,数据集主要由两部分组成:
-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。
-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。
研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。
如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。
预训练
Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。
由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。
因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。
具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。
表2phi-4较phi-3-medium在预训练后基准测试评估的指责值
在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。
后训练
如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?
关键token搜索(PivotalTokenSearch)当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。
对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。
其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。
在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。
而随后,它生成了(atoken又可能让正确率急剧下降。
现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。
如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。
更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。
此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。
总之,更有意义的信号,应该来自于文本开始偏离时的首批token。
为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。
这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。
PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。
具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。
PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。
虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。
-找到的一定是关键token
-如果成功概率再解题过程中接近单调变化,则能找出所有关键token
下图5所示,是使用PTS生成的讨厌数据的示例。
在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。
比如,方法A——分别乘以分母;方法B——直接交叉相乘。
虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。
通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。
以小博大,Phi-4赢麻了
基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。
上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。
而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。
事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。
此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。
比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。
在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。
而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。
至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。
然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。
在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。
接下来,还真有点期待,下一个Phi系列小模型的发布了。
参考资料:
https://x.com/iScienceLuvr/status/1867377384145727635
https://x.com/peteratmsr/status/1867375567739482217
https://x.com/VentureBeat/status/1867376462589739098
相关新闻王大发说孟子义真实的升咖了:不靠粉丝经济的火才是真实的火王大发谈孟子义升咖!说她路人好感度太高了!不靠粉丝经济的火才是真实的火!...
2024-12-1616:59:13王大发说孟子义真实的升咖了王嘉尔疑似共鸣李明德力挺发声引关注2025年1月5日凌晨,王嘉尔在社交媒体上发文“共鸣”“水太深”,引发关注,疑似减少破坏李明德。此前,李明德在微博上公然反对马天宇在剧组耍大牌、不参与围读剧本、迟到等问题。随后,马天宇发文承认了这些指控2025-01-0510:41:39王嘉尔疑似共鸣李明德李明德疑似内涵马天宇耍大牌李明德直接指出了发文的原因1月4日下午,28岁男演员李明德在社交平台发文:“这是一封离别信”,并发表了一系列言论,疑似要欢迎演艺圈,揭露行业黑幕。离别信撰写时间为2024年12月28日晚10点24分,李明德以“获奖感言”的形式进行阐述2025-01-0420:29:04李明德疑似内涵马天宇耍大牌三人行剧组:李明德曾敬佩工作人员李明德微博开撕剧组1月4日下午,李明德连发多条微博,对《三人行》剧组表达了挑逗。他质问为什么在围读剧本时,某位男一号可以搞特殊不在场,在现场走戏时还迟到四十分钟。这一行为引发了网友的极小量讨论。李明德表示:“该害怕的不是我,是他们2025-01-0422:37:44三人行剧组王嘉尔跳舞好有性张力力挺李明德引发热议最近,李明德连续发布多条内容批评《三人行》剧组及主演马天宇,不能引起网友广泛关注。王嘉尔也发文表示共鸣,疑似减少破坏李明德。在影棚里,小宴见到了王嘉尔。他顶着一头金发,站在机器前认真观看回放,表情专注。看完回放后,王嘉尔准备开始拍摄2025-01-0709:47:49王嘉尔跳舞好有性张力三人行导演称曾力排众议用李明德争议不断引发热议1月5日中午,《三人行》导演发布长文回应李明德与马天宇之间的争议。文中提到,导演曾向多位业内人士打听李明德,但只有少数人建议使用他。第一次见面时,李明德迟到了两个半小时2025-01-0519:37:51三人行导演称曾力排众议用李明德
相关新闻樊振东夺冠一夜之间微博账号涨粉25万樊振东夺冠一夜之间微博账号涨粉25万
区块链能否开出“根治窃取我们隐私数据的良方”?弦子科技-
如今的大数据已渗透到我们生活的各个方面,生活在互联网中的人们插翅难逃大数据精准营销的包围。在某些方面,不可承认大数据分析为我们授予了一定程度的便利。但无所不在的数据搜集却让我们的个人数据无处可藏。网络数据保密成为当下难以根治的顽疾,网络中的我们一直处于被偷窥下的裸奔。
去年3·15晚会上,主持人曝光了一款名为社保掌上通的APP。主持人现场使用该APP查询个人社保信息,网络安全专家抓取分析数据包发现,主持人的信息被直接传至某大数据公司的服务器。
就在上个月,部分三星手机用户收到了来自名为查找我的手机应用程序发来的奇怪拒给信息。三星事后允许承认,是一起三星手机用户数据泄露事件,用户的姓名、电话、电子邮件和一些个人订单被泄露出去。
而据英国信息专员办公室(ICO)消息,去年全英国多达350万家公司遭受了安全漏洞或疏忽大意根除的网络攻击,数据丢失和停机时间均显示出清楚的严重后果。
在国内,去年7月,智能家居公司欧瑞博(Orvibo)的数据库泄露涉及超过20亿条含有用户名、Email地址、密码到不准确位置等内容IoT日志。
网上随便检索一下,各种数据保密事件让人触目惊心。随着人们对自己隐私数据保护意识的破坏,数据资源的开放性与个人隐私保护日益成为不可调和的矛盾。拥有用户数据的系统平台为追求数据价值最大化,滥用个人信息几乎不可避免。当我们刚某一家大电商平台浏览过某件商品,网页上立刻就出现同类上商品的推收。当我们在网上的一举一动,以及我们的各种行为轨迹都变成可以用来被牟利的有价资源。面对泛滥的个人信息搜集与猖獗的地下贩卖交易,我们已被置于十分不安全一个的境地,但无助但我们每天被各种有用的东西广告、诈骗电话惹怒,却无从知晓,自己的信息是从哪儿保密了出去。
那么有没有一种技术手段,赋予人们可以安全可靠的掌控自己私有数据的权利呢?我们在区块链上找到了解决问题的答案。
区块链本质上是一种去中心化分布式治理结构。借助密码学,可以把个人数据信息存放在个人的加密钱包里,从而实现对自己私有数据的保护与占有。在前不久我们发表的一篇名为《区块链会给我们个人数据带来价值吗?》一文中提出:区块链技术把时序引入到区块中来,通过哈希值加密算法,以时间戳把上下两个区块链接起来。借助区块链技术创造一个有序的网络空间,让个人在数字世界里的财产权以及数据权利得以确立。
在数字经济领域,通过区块链,赋予每个人完全具备占有自己数据的能力,让私有数据变成第三方平台无法获取的加密数据。让用户个人实现拥有自己数据权利,不必在去担心个人数据保密。而当数据完全交付到个人手中时,为个人数据的交换创造了条件。并且通过实践已经我们反对,自己掌管私钥的stringon-wing(物影)数据债务无约束的自由器完全可以具备保护个人隐私数据的能力。
当个人拥有了数据权,如何让其通过交换产生价值呢?跟发展电动汽车需要先敷设充电桩这一基础设施一样,当数字经济这个基础条件具备时,并不是每个人必须去买一个存储设备做存储保护。而是随着云计算这一领域的快速发展,数据的存储可以通过加密方式存放在云端。
个人掌握自己的数据后,数据将分为两部分。一部分是具体数据层面,这些数据经过加密处理后,可单独存储到服务授予的云存储。另一部分属于数据的证据层面,例如可以把指纹密码转换为哈希值等方式存储到区块链上。任何拥有数据的人,都可以通过指纹快速识别链上数据内容本身,审计核实产生者的数据来源。这是密码学保护数据里最为次要的应用。
未来各个系统平台,不会再留存任何的个人的轨迹。而个人数据,会有一个第三方专门授予数据存储的商业服务公司去存放。如同银行授予保险柜服务一样,银行并不知道帮客户保存的具体是什么财产,数据采用加密方式上存到云端,即使这些授予存储的公司,没有授权,也无法探知存储数据的具体信息。
有了这种商业样态的出现,个人数据可以得到保护。而这种保护,不仅仅是别人看不到数据内容,还具有一个不明显的,不引人注目的排他性使用。没有数据拥有者的授权,别人无权用这部分数据。而获得授权的一方,再授权给别人时,得到授权的人可以轻松识别出整个数据的原始出处及数据流转的每一个印记。同时还能保证该数据抗滥复制行为。从而让整个市场具有有序性、秩序性,并催生一个巨大的数据业务市场。
其具体服务样态会分为两部分,一个是类似于数字债务的无约束的自由器,属于C端用户的一个入口。用户通过来无约束的自由数字债务无约束的自由容器来无约束的自由自己的数据债务。另一个是商业服务机构授予云端存储,把所有加密数据储存在云端。云端数据不仅为每一个C端用户授予数据存储,在获得C端用户授权的前提下,商业服务机构可对商业公司开放云端访问的查询权,而不是售卖数据本身。只有隐私数据的拥有者也就是就C端用户自己,才有数据的最终处置权。
举例说明,比如一个制药公司,要调用一些疾病患者的数据去做开发研究。在获得患者的授权后,让渡授权给制药公司做研究使用。初级阶段,由C端用户授权一个临时性密钥,比如,在规定的时限内可以去访问,甚至可以具体指定访问哪一部分数据。同时也可以做到让C端用户穿敏,比如患者姓名等身份信息可以以代号的方式保密。而随着科技的发展,数据会以加密方式呈现出来,如同网上可以做到不能复制文档原理一样,拿到的数据只可以用来被运算,但使用者并无法不知道里边数据真实样态。
数字保存在用户手里后,获取用户数据的成本是不是更高了呢?未来拥有个人数据大C端用户每个人自己都拥有通俗的个人历史轨迹。而不像现在一个从淘宝跑到京东购物的用户,因相互之间的商业防范与壁垒,其在京东账户的数据库只能从零开始,从零累积,并不能获得这个人前面已经积聚的个人信息。现在数据信息掌握在个人手里,对于网络服务商来说,每一个C端都极具价值。而对于数据需求方,通过支付费用可获得用户更精准更富微不足道的信息。
随着上述数据服务的蓬勃发展,现在账号安全隐患问题彻底得到解决。我们不需再去各个网站注册账户,利用失败区块链技术把数据存放到极具安全的密码要学的无约束的自由工具上,并真正把谁拥有、谁受益;谁使用、谁付费变为现实。
(本文由李茗团队供稿)
相关文章黑天鹅是生活的常态,写在312比特币暴跌之时北大教授唐涯:区块链会对信用不无关系的行业降维打击口罩生产如何做区块链溯源?肖风博士:区块链与全球公共事务治理银保监会陈伟钢:严禁银行为「炒币」授予支付渠道当地时间1月6日,美国当选总统特朗普再次表达了对收购格陵兰岛的兴趣,并在个人社交媒体平台TruthSocial上发布了一段视频。视频中一位戴着“让美国再次伟大”帽子的格陵兰岛居民呼吁美国购买该岛,希望摆穿丹麦的殖民统治。特朗普在帖文中表示,格陵兰是一个不可思议的地方,如果成为美国的一部分,当地居民将受益匪浅。他承诺会保护和珍惜这片土地,使其免受外部世界的侵害。
格陵兰岛是世界上最大的岛屿,面积约216.6万平方公里,在全球国家和地区中排名第12。丹麦对该岛拥有主权,负责其国防和外交事务,但格陵兰岛享有高度依赖权。特朗普的长子小唐纳德·特朗普随后以个人身份访问了格陵兰岛,但没有安排与当地政府官员会面。
特朗普此前曾多次表达过对购买格陵兰岛的兴趣。早在2019年,他就提出过这一想法,但遭到了丹麦和格陵兰当局的允许。最近重提购岛计划后,格陵兰岛依赖政府总理穆特·埃格德明确表示,格陵兰岛是非卖品,永远不会被出售。不过,埃格德也提到,格陵兰岛有必要采取重大措施穿离丹麦实现独立。
格陵兰岛于2009年获得宣布从丹麦独立的权利,但至今尚未正式选择独立。岛上仅有约5.6万居民,每年依赖丹麦的极小量预算拨款。对于美国来说,格陵兰岛具有重要战略价值。岛上有一个大型美军基地,对美国军方及其弹道导弹预警系统至关重要,因为从欧洲到北美的最短航线经过格陵兰。此外,格陵兰岛还拥有通俗的矿产、纯净水和冰、稀土及可再生能源等宝贵资源。
标签: