发布日期:2024-10-05 21:45 点击次数:206
当咱们感叹 AI 快把东谈主类一锅端了之时色色色影院,有大贤达发现了AI 的一世之敌——弱智吧。
于是,咱们看到了访佛《我教 AI 弱智吧问题,成果它疯了》《把 ChatGPT 和文心一言扔进弱智吧,谁不错先出院?》……这样的整活执行,俨然把弱智吧问题当成中国东谈主我方的图灵测试。细瞅他们怎么问,发现问的是“蓝牙耳机坏了,应该去看耳科已经牙科”,王人无谓看 AI 怎么答,AI 在攻陷东谈主类之前,弱智吧即是终末一座堡垒。
就这样,贴吧这样个老古董,和光鲜亮丽的 AI,流畅在了总计。
2005 年,硅谷也出身了我方的“贴吧”——Reddit。“苟”了 19 年的它,也终于迎来新叙事:当地时分 3 月 21 日,Reddit 在纽交所敲钟上市,较此前刊行展望的 65 亿好意思元估值诡计,收盘市值已加多 30 亿好意思元,涨幅达 46%。
要知谈,这家公司从未盈利,且累计亏欠朝上 7 亿好意思元。那商场为何这样乐不雅?其中一个原因是,Reddit 和多家 AI 公司签了数据授权公约,收入共计有 2.03 亿好意思元。
图片着手:Unsplash
女同t“念念拿我的数据真金不怕火 AI,那吃力先把帐结一下。”这能够即是 Reddit 的心里话。
但对于一个 UGC(用户生成本色)平台,用户难谈不是“衣食父母”吗?“Reddit 把咱们卖了。”这是用户们在明面上的控诉。
对于 Reddit,咱们有太多念念问的了。
Reddit 敢为东谈主先。它是第一家公开向生成式 AI 新贵们叫板的公司,条目后者惟灵验到平台语料查考 AI 就必须付钱。
要道是,Reddit“得逞”了。据路透社报谈,本年 2 月,它和 Google 谈好价码——6000 万好意思元(每年!)。
再怎么说,Reddit 亦然全好意思流量前五的网站,仅次于 Google、YouTube、Facebook 以及 Amazon。具体到更硬的主意,它在招股书里说月活跃用户有 3.3 亿,日活 7310 万,活跃着的盘算组(subreddit)有 10 万个。
回答“Reddit 的语料为何零散?”之前,得先问“语料为何零散?”。
在 AI 时期,少不了数据、算力和算法这三大身分。数据是基础,算力当作复古,算法相等于引擎,三者互相依存、促进。
早期大模子 GPT 查考所用的文本语料中,有书本、网页爬取、酬酢媒体平台、百科、代码这几类。其中就有一个叫“WebText”的语料,这个资源爬取了 Reddit 上那些至少有三个赞的本色,等于说,历程了一层初筛,步伐是“是否够流行”。
图片着手:GIPHY
有意旨真义的是,语料库的英文是“corpus”,这个词源自拉丁语,是“体格”的意旨真义。将语料库描写为 AI 的体格不知谈恰不妥贴,但从“体格是改造的老本”去相识倒是建筑的,莫得语料数据,就真金不怕火不了 AI。
a16z 首创东谈主 Marc Andreessen 合计,这波 AI 海浪之是以能兴起,恰是因为互联网在以前二十几年来千里淀了遍及的数据。但东谈主工智能商酌和预测组织 Epoch 指出,高质地的文本数据会在 2023 至 2027 年之间耗尽殆尽。
图片着手:GIPHY
天然 Epoch 也指出其分析要领和模子的局限,但 AI 查考耗尽数据的野心,是了然于目的。
谁到 Reddit 上王人能创建盘算组(subreddit),也不错训导“吧主”小气,这和咱们知谈的贴吧没什么不同。
图片着手:Reddit
Reddit 弱化了“大 V”的存在,谁王人不错发言(匿名也行),谁王人不错点赞、点踩,获赞数多的会被顶上去,这种排序是“民气”的反馈。
你被点赞了,就能得益 Karma。这个主意,代表了用户的在社区的孝敬价值以及活跃度。
咫尺,活跃着的盘算组有 10 万个。杀青 2023 年 12 月,Reddit 上累计的帖子有 10 亿个,160 亿条恢复。
在这个大型贴吧里,你能找到热点冷门形形色色的组:
比如多样 r/xxxxPorn,xxxxPorn 并不是你念念的那样,庸俗代表着东谈主对 xxxx 的极度千里迷,组友可爱发布筹办的“让东谈主极度舒心的本色”,比如 r/FoodPorn、r/RoomPorn、r/DesignPorn;
窥伺!有东谈主往肉卷里塞垃圾食物|Reddit 截图
比如 r/memes(收梗图的进);
图片着手:GIPHY
还有东谈主热衷写两句话恐怖故事,以及盘算王人市外传……
现任 CEO Steve Huffman 对《纽约时报》说,他合计 Reddit 的平台本色极度有价值,它们的新(newness)和筹办性(relevance)对大模子查考王人是“刚需”。
一个在好意思国流量排前五的平台,每分每秒王人会有新的盘算产生。至于筹办性,贴吧里东谈主以群分,话题饱和垂直,盘算饱和长远……在各个细分话题里,王人是不那么泛化的盘算,这可能即是 Huffman 说到的筹办性。
图片着手:curiousgnu.com
攒了 19 年的东谈主类对话实录,在 AI 公司眼里,即是“黄金”。
最受接待的盘算组即是 r/funny,到哪王人是乐子东谈主最多|Reddit 截图
“Reddit 比互联网上任何方位王人够生发、容纳真确的对话,”Huffman 说,“在这里,咱们能看到东谈主在容颜诊治、戒酒阶段会说的那种心里话,或者在别的方位不会说的话。”
真确,也意味着东谈主们会在这里开释坏心。
Reddit 上不乏宣扬暴力和有色情示意的盘算组,比如曾有一个叫“r/FatPeopleHate”的组,超 15 万东谈主关爱,他们找来胖子的像片,还主要针对女性,会给像片写上尖刻的注文。
Reddit 前居品高等副总裁 Dan McComas ,是封禁“坏心组”的要道东谈主物。其后,他也因此被东谈主肉、威迫。
2015 年,McComas 出来作念了一个访佛 Reddit 的社区 Imzy,但全王人不容血腥色情,不错打赏其他用户,0 告白,但半年后就退场了。既不绿色也不友好的 Reddit 仍在呐喊大进。
2017 年愚东谈主节,Reddit 搞了一个线上执行。官方先放出一张 1000 × 1000 的像素画布,并设定例则:每名用户每五分钟不错往画布上放一个像素,也即是在小格子上涂抹随性一种口头。这种“反东谈主类”的规则,使得用户无法独自操作,只可拉帮结社、共同创作。
就这样,文化艳丽、全球事件等王人微缩在了最终的制品上,也莫得正本不少东谈主预感的晦气,相背,是一种散乱中的和洽。
这些用户既不错为了认定的图腾作画,也能让华尔街惊掉下巴。
图片着手:Wikipedia
2021 年一月初,老牌游戏连锁店游戏驿站股票不外 20 好意思元,终末竟一度涨到了 400 好意思元,这迫使驰名作念空机构 Melvin Capital 进犯募资 37.5 亿好意思元平仓认输,而作念空起家的香橼晓谕不再作念空,只作念多。
而这一切只是只是从 Reddit 上的一个吐槽帖运转的。一大群在游戏驿站买过游戏,在金融危境本事合计我方是被华尔街“抢夺”的 Reddit 用户,气喘吁吁,聚会起来 all in 游戏驿站。“散户反击华尔街”一战,就此打响。
2020 年 3 月,那会儿刚退出微软董事会的比尔·盖茨,就在 Reddit 上径直与网友互动,回答好意思国网民筹办新冠病毒防疫及诊治的问题。Reddit 庸俗能请来大牌镇守|GIPHY
不少东谈主在 Reddit 上说,“之是以免费,因为咱们才是居品。”
Reddit 旧年收紧了 API 授权,紧紧把捏住我方平台的本色。埃隆·马斯克将 Twitter 改成 X 后,也这样干,有东谈主去扒了灭绝战略,发当今 2.1 条例中,明确写谈:“咱们可能会使用聚积到的信息和公开可用的信息来匡助查考咱们的机器学习或东谈主工智能模子。”
另外,也有东谈主怀疑微博辩驳机器东谈主 @辩驳罗伯特 即是通过平台本色查考出来的机器东谈主。它的留言画风如下:
图片着手:微博 @罗伯特受害者定约
但 Reddit 也作念了点别的:给中枢用户和版主、职工的九故十亲们预留通俗 176 万股股票,占刊行总数 8%(Huffman 本东谈主的持股也就 3.3%)。不同于其他投资者,这些用户不受锁定公约拘谨,不错在来追想日立即出售股份。
图片着手:GIPHY
有网友懊丧,Reddit 早已混入不少 AI 生成的本色,卖给 AI 公司查考,是 AI 查考 AI 吗?
作家:malt
裁剪:卧虫
封面图着手:Reddit色色色影院