Teuken-7B,一款拥有 70 亿个参数的语言模型,现已在 Hugging Face 上推出,支持所有 24 种欧盟官方语言。该模型由欧盟 OpenGPT-X 研究项目开发,并可作为开源项目供用户使用。与大多数以英语为核心的 AI 语言模型不同,Teuken-7B 是从零开始构建的,约一半的训练数据来源于非英语的欧洲语言。
开发团队表示,Teuken-7B 在所有训练过的语言中都表现出色,尤其是在处理非英语语言时,其可靠性令人印象深刻。为衡量语言模型在欧洲语言中的表现,项目团队还创建了一个全新的欧洲 LLM 排行榜,超越了以往主要基于英语的标准测试方法。
这一发布标志着欧洲在推动多语言人工智能模型方面的重大进展,同时也为开发者提供了一个强大且多样化的工具,以支持跨语言的应用和研究。