恰饭广告 感谢理解
大流量号卡
广告
广告
恰饭广告 感谢理解

维基媒体在Kaggle发布结构化维基百科数据集,助力AI建模与训练

【4月18日消息】据外媒报道,维基百科的运营机构——维基媒体基金会旗下的 Wikimedia Enterprise 于当地时间4月16日宣布,在 Kaggle 平台 上正式上线维基百科结构化内容快照数据集的测试版。此次发布的数据集提供 JSON 格式,并覆盖 英语与法语 两个版本。

为AI与机器学习量身定制的数据集

此次上线的数据集是专为 人工智能与机器学习任务 所设计,涵盖 模型训练、基准评估、指令对齐、微调以及探索性分析 等典型应用场景。相比以往必须从维基百科主站抓取并自行解析原始文本内容的方式,该结构化快照数据集极大地 降低了开发门槛,简化了数据预处理流程。

降低AI爬虫负担,保护维基百科站点稳定

维基媒体方面指出,该举措也有助于减少 AI 系统对维基百科主站进行大规模爬取的需求,有效减轻了服务器负担,有助于维持网站运营的稳定性与长期可持续性。

简而言之,AI开发者可以通过 Kaggle 平台直接获取整洁、结构清晰、可机读的数据,无需再开发额外的抓取脚本或处理繁杂的HTML结构,大大提升了效率,也符合开放数据与可持续开发的技术趋势。

目前该数据集仍处于测试阶段,未来或将扩展至更多语言版本和更细致的结构化内容。

20250419133635339-image

 

© 版权声明
THE END
喜欢就支持一下吧
点赞0赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容