手机浏览器扫描二维码访问
孟繁岐的这番话,听起来让人觉得不是那么舒服。
言下之意,给人一种华国aI技术就是不如国外的感觉。
这是李彦弘不大喜欢的,毕竟他这么早就关注aI技术,就是为了研最前沿最先进的技术。
孟繁岐大概猜到了他的想法,前世他也曾被早期华国大量表的aI论文所迷惑。
觉得在这个崛起的技术上,华国已经可以和美国分庭抗礼,不落下风。
虽然a1phago震惊了世人,但毕竟有些华而不实。
直到上千亿级别的语言大模型出现,这种纯硬核实力的比拼,让孟繁岐不得不甘拜下风。
实际上,并非是技术手段和算法层面上相差太远。
更多的还是因为优质数据的数量不足。
白度的文心一言,出图的时候甚至会将用户的中文输入翻译成英文,再去作图。
很多较真的网友故意测试了中英文差异很大的词汇,比如总线(Bus),鼠标(mouse)。
文心一言绘出的图像竟然是大巴车和老鼠,这从中文上是完全说不通的事情。
可见即便不是全部,文心一言这个所谓的专注中文的级大模型,也在相当程度上借助了英文基础的模型权重和技术。
究竟为何要这么做,说到底还是基础不够扎实牢靠。
整理数据,清洗数据,给数据打上高质量的标签。
这些都是脏活累活,见效慢的工作。
把别人公开的数据拿过来跑一跑训一训,多么方便快捷?
以国内996大厂的内卷风气,很难容下长回报周期的基础建设。
早些时候看看不出区别,只觉得国内大厂频繁在xx榜单上露面,刷榜,又是过这个,又是过那个。
直到语言大模型阶段,基础语料数量和质量上的劣势才暴露无遗。
“其实这也不能完全怪华国的大厂风气,美国的互联网起步要早,并且很多领域的文献材料归档做得特别好。”孟繁岐也曾仔细思索过这方面的问题。
“像github,arxiv这样的大型公开社区,里面都是非常优质的外文代码或者论文。这些也不只是美国人自己的积累。而是通过免费公用的形式,收割了全世界的数据。”
“华国人在github上贡献的代码行数也不在少数,反过来看看华国的论文社区,就比如知网,纯纯就是毒瘤。里面屯点硕博生的论文,还要论页数收费。就连下载之后的阅读器,甚至都需要专门的....”
此消彼长之下,差了多少珍贵的数据啊...
只是此时此刻,李彦弘应该还没有想到这么大规模的数据用于训练。因而孟繁岐也不急于一时和他讨论后面语言类的技术,以及生成式的大模型。
每一个世界都不得好死云落翻翻白眼老娘不服...
作品简介...
一场酒醉,她招惹上大人物,她有求于他,他贪图她年轻身材好。时间久了,她才知道他心里有人,当他的白月光归来,他渐渐不再回家,温蔓守着空房,度过无数个没有他的夜晚,后来,她等到一张支票和他的一声再见。本以为她会哭闹,她却拿着支票利落走人霍先生,我们后会无期!再次重逢,她身边有了旁人,他红着眼睛说温蔓,明明是我先跟你好的。温蔓笑颜淡淡霍律师,先...
简介关于回到大唐,我李泰不想当皇帝![无系统]轻松有脑家庭和睦热血大唐,一个猎猎雄风的时代,主角穿越回去作为李二嫡次子,开局翻盘渭水之盟,自请开府,选择猥琐育但大唐内外狼环虎伺,于是拒外敌斗世家扶大唐拓地万里不争便是争,全看大哥会不会作死,至于那个腹黑小九,绝不能让他上位,否则自已性命危矣大唐危矣!最后问李承乾,你会不会当皇帝?不会我教你,实在教不会的话,那就让你儿子来当吧。...
功夫究竟是什么花架子还是杀人技三千年冷兵器战争和无数民间私斗酝酿出来的把式,究竟是不是骗局国术流开创者,功夫小说第一人梦入神机,在本书中为您揭秘。止戈为武,点到为止。你若无敌,将会如何...
6大强在旁人眼里是个泼皮无赖,婆娘跑了之后独自抚养儿子长大,儿子很争气长大后开创了一番自己的事业,但是很气愤的事,儿子一直不结婚,而且心里眼里都是他的死对头,把对方当亲爹一样待。老头儿怎么忍得了战...