Skip to content

多语言与国际化资源

全球超过 7,000 种语言,但大多数 AI 模型仅支持少数几种。本页汇总多语言 NLP 工具、跨语言模型、低资源语言 AI 与翻译本地化资源。

跨语言模型

主流多语言模型

模型支持语言特点链接
XLM-RoBERTa100强大的跨语言表征huggingface.co/xlm-roberta
mBERT104多语言 BERTgithub.com/google-research/bert
Aya101Cohere 开源多语言cohere.com/research/aya
BLOOM46BigScience 开源模型bigscience.huggingface.co
Qwen29+阿里多语言github.com/QwenLM/Qwen
Yi多语言零一万物github.com/01-ai/Yi
SeaLLM东南亚语区域专用github.com/DAMO-NLP-SG/SeaLLM

中文模型资源

模型机构特点链接
ChatGLM智源中英双语github.com/THUDM/ChatGLM3
Baichuan百川中文优化github.com/baichuan-inc
InternLM商汤中文理解github.com/InternLM/InternLM
DeepSeek深度求索中英双语github.com/deepseek-ai
文心一言百度中文知识增强yiyan.baidu.com
通义千问阿里多语言tongyi.aliyun.com

多语言 NLP 工具

分词与处理

工具支持语言特点链接
spaCy多语言工业级 NLPspacy.io
Stanza66+Stanford NLPstanfordnlp.github.io/stanza
Jieba中文中文分词github.com/fxsjy/jieba
pkuseg中文北大分词github.com/lancopku/pkuseg-python
HanLP中文多功能 NLPgithub.com/hankcs/HanLP
MeCab日语日语分词taku910.github.io/mecab
KoNLPy韩语韩语 NLPkonlpy.org

翻译工具

工具支持语言特点链接
Argos Translate30+离线翻译github.com/argosopentech/argos-translate
LibreTranslate30+自托管 APIlibretranslate.com
Opus-MT100+Helsinki NLPgithub.com/Helsinki-NLP/Opus-MT
NLLB200+Meta 神经机器翻译github.com/facebookresearch/fairseq
Google Translate API100+商业级cloud.google.com/translate
DeepL API30+高质量deepl.com/pro-api

低资源语言 AI

挑战与解决方案

问题解决方案工具/方法
缺乏训练数据跨语言迁移XLM-R、mBERT
缺乏标注数据弱监督学习远程监督
语法复杂多任务学习共享表征
文字系统多样统一处理Unicode 标准化

低资源语言项目

项目语言描述链接
Masakhane非洲语言非洲 NLP 社区masakhane.io
AI4Bharat印度语言印度语言 AIai4bharat.iitm.ac.in
IndicNLP印度语言印度语言工具github.com/anoopkunchukuttan/indic_nlp_library
African NLP非洲语言非洲语言资源africanlp.masakhane.io
Tatoeba多语言开源句子库tatoeba.org

本地化与国际化

本地化工具

工具功能链接
i18next国际化框架i18next.com
FormatJS格式化formatjs.io
FluentMozilla 本地化projectfluent.org
Crowdin翻译管理crowdin.com
Lokalise本地化平台lokalise.com

文化适配

方面考量工具
文本方向RTL/LTRCSS 支持
日期格式不同日历Intl API
数字格式千分位Intl API
文化敏感性禁忌词内容审核
图标和颜色文化差异本地化设计

多语言数据集

数据集语言描述链接
Common Voice多语言Mozilla 语音数据commonvoice.mozilla.org
OPUS多语言平行文本语料opus.nlpl.eu
CC100100+Common Crawl 多语言data.statmt.org/cc-100
OSCAR100+网页文本语料oscar-corpus.com
mC4101多语言 C4tensorflow.org/datasets
XNLI15跨语言 NLIgithub.com/facebookresearch/XNLI
XTREME40跨语言评测github.com/google-research/xtreme

评测与标准

标准范围链接
XTREME跨语言理解sites.research.google/xtreme
XGLUE跨语言理解microsoft.com/en-us/research/project/xglue
FLORES机器翻译github.com/facebookresearch/flores
MLQA跨语言 QAgithub.com/facebookresearch/MLQA

相关页面

参考来源

  • Hugging Face 多语言模型库
  • Papers with Code 多语言任务
  • Mozilla Common Voice
  • BigScience 项目

AI Knowledge Base — 持续积累