大模型既要“吃得饱”更要“吃得好”
时间:2025-03-04 19:02:02来源:科技日报
前段时间,网络上流传着一些由大模型生成的“异次元篇章”。比如,有人让大模型续写《红楼梦》情节时,竟得出一幕“贾宝玉倒拔垂杨柳”的奇景,令人啼笑皆非。之所以会出现这种“混搭”和“幻觉”,是因为大模型不仅学习了原著,还“广纳博采”了不少错误信息。

这些人工智能(AI)生成的“胡言乱语”虽是网友们茶余饭后的笑谈,但提醒我们要清醒认识到其背后折射出的问题:数据质量是大模型应用成败的关键。以个性化推荐AI系统为例,一些企业在开发过程中,虽然收集了大量的用户行为数据,但数据中充斥着错误的标注、重复的数据以及相互矛盾的信息,数据的量增加了,但系统推荐的准确性并没有显著提升。《自然》杂志(Nature)刊登的一篇有关大模型可靠性研究的文章指出,一个西班牙研究团队发现,包括OpenAI公司的GPT在内的几个大模型升级后,虽然参数量更大了,误答情况却更严重了。因此,大模型长得壮不壮,不仅取决于“食量”(即数据的数量),更在于食物的“质量”(即数据的质量)——吃得饱并不等同于吃得好。

数据是大模型的基石,在数据质量不高、可靠性缺失的情况下,一味追求大模型参数量的增加,不仅无法提升模型性能,反而会放大偏差和谬误,产生更多不可信数据。如此一来,势必造成计算与存储资源的浪费,增加开发和维护成本,降低用户信任度。更为严重的是,这种“大模型幻觉”和“灾难性遗忘”现象如果发生在精确性要求极高的工业生产领域中,还可能引发不可预测的风险和隐患。以油气勘探为例,基于大模型给出的错误预测进行开采可能导致数亿元的资金损失,并对自然环境造成不可逆转的破坏。

提升大模型性能,关键是处理好数据“质”和“量”的关系,构建大规模、高质量的数据集。应建立完善的数据收集、清洗、验证和存储机制,加强对数据质量的监控和评估,确保数据的准确性、完整性和一致性。此外,还应注重跨领域合作,引入数据科学家、AI算法工程师等多方力量,开展大模型算法合作、制定数据共享和隐私安全保密协议,推动大模型产学研用生态建设。

如今,大模型的发展已迈入多模态融合阶段。通过加强数据治理,优化人工智能学习、训练和验证的“基础食材”,端上大规模、高质量、多模态数据集的“丰盛大餐”,必将助力大模型能力的提升,让人工智能更好地赋能千行百业、造福人类社会。

标签:

生活指南
  • 天津大学研发可控手性石墨烯卷为自旋电子学开辟新路径

    中新网天津2月25日电 (记者 孙玲玲)记者25日从天津大学获悉,日前

  • 驻马店市驿城区沙河店镇:节后“燃”情守护 拧紧安全“阀门”

    春节假期结束,为保障居民在节后的用气安全,及时消除各类燃气安全隐患

  • 国家税务总局:2024年减税降费及退税超2.6万亿元 重点支持科技创新和制造业发展

    近日,国家税务总局发布的最新数据显示,2024年,现行支持科技创新

  • 中国队包揽女子速度滑冰1500米前三 三面国旗亚冬赛场同时升起!

    中新网哈尔滨2月8日电(王妮娜)8日,哈尔滨亚冬会速度滑冰女子1500米

  • 教育惩戒学生应秉持合法适度原则

    学生在校期间扎、咬同学,老师发现后对其批评并要求其道歉,因态度

  • ​西平县安防办对全县电气安全专项整治行动进行检查

    为进一步消除电气安全隐患,遏制电气火灾事故高发态势,1月17日,西平

  • 市场监管总局公布五起侵犯商业秘密典型案例

    中新网12月31日电 据市场监管总局微信公众号消息,加强商业秘密保

  • 西峡县法院:柔性司法解真意 法理容情定居所

    在纷繁的家事纠纷中,每一个案件不仅是冰冷条文的演绎,而是真实人生的

  • “两新”政策带动相关产品销量持续增长

    本报北京12月12日电 (记者汪文正)记者从国家税务总局获悉,日前发

  • “中华典籍中的人权理念”国际学术研讨会在岳麓书院举行

    湘江之滨,潮水奔涌;岳麓山脚,思想激荡。11月20日,由中国人权研究

  • 文化中国行丨建湖杂技:传承至今的力量与美

    中国杂技之乡江苏省盐城市建湖县是南派杂技发源地。在建湖杂技传承

  • 观察:山东青岛海西湾船舶海工产业基地船企主动求变:出坞!向着清洁能源转型

    山东青岛海西湾船舶海工产业基地,船企主动求变——出坞!向着清洁

  • 湖南省科技馆国庆迎客满,互动活动趣味多

    国庆长假已开启,湖南省科技场馆也迎来参观热潮。国庆假期前三日,

  • 为什么要在高原上建风电?记者探访世界海拔最高风电站_天天看热讯

    这个假期,总台新闻频道派出记者,去打卡一些特殊的景点,都是一些

  • 部分海外品牌中国市场“失宠”

    由于创新应用和营销手段不足,手机、美妆、食品等多行业海外消费品

  • 国家统计局:1-8月份全国规模以上工业企业利润增长0.5%

    中新网9月27日电 据国家统计局网站消息,1—8月份,全国规模以上工

  • 民生
    • 全国政协委员周鸿祎:AI“幻觉”具有两面性

    • 无声的反击,美国人为何流行起了“不购物”?

    • 电子产品“国补”落地 手机、平板、家电换新潮来袭

    • 2024花地文学榜年度榜单在深圳揭晓 讲好文学精彩故事