Appearance
多语言与国际化资源
全球超过 7,000 种语言,但大多数 AI 模型仅支持少数几种。本页汇总多语言 NLP 工具、跨语言模型、低资源语言 AI 与翻译本地化资源。
跨语言模型
主流多语言模型
| 模型 | 支持语言 | 特点 | 链接 |
|---|---|---|---|
| XLM-RoBERTa | 100 | 强大的跨语言表征 | huggingface.co/xlm-roberta |
| mBERT | 104 | 多语言 BERT | github.com/google-research/bert |
| Aya | 101 | Cohere 开源多语言 | cohere.com/research/aya |
| BLOOM | 46 | BigScience 开源模型 | bigscience.huggingface.co |
| Qwen | 29+ | 阿里多语言 | github.com/QwenLM/Qwen |
| Yi | 多语言 | 零一万物 | github.com/01-ai/Yi |
| SeaLLM | 东南亚语 | 区域专用 | github.com/DAMO-NLP-SG/SeaLLM |
中文模型资源
| 模型 | 机构 | 特点 | 链接 |
|---|---|---|---|
| ChatGLM | 智源 | 中英双语 | github.com/THUDM/ChatGLM3 |
| Baichuan | 百川 | 中文优化 | github.com/baichuan-inc |
| InternLM | 商汤 | 中文理解 | github.com/InternLM/InternLM |
| DeepSeek | 深度求索 | 中英双语 | github.com/deepseek-ai |
| 文心一言 | 百度 | 中文知识增强 | yiyan.baidu.com |
| 通义千问 | 阿里 | 多语言 | tongyi.aliyun.com |
多语言 NLP 工具
分词与处理
| 工具 | 支持语言 | 特点 | 链接 |
|---|---|---|---|
| spaCy | 多语言 | 工业级 NLP | spacy.io |
| Stanza | 66+ | Stanford NLP | stanfordnlp.github.io/stanza |
| Jieba | 中文 | 中文分词 | github.com/fxsjy/jieba |
| pkuseg | 中文 | 北大分词 | github.com/lancopku/pkuseg-python |
| HanLP | 中文 | 多功能 NLP | github.com/hankcs/HanLP |
| MeCab | 日语 | 日语分词 | taku910.github.io/mecab |
| KoNLPy | 韩语 | 韩语 NLP | konlpy.org |
翻译工具
| 工具 | 支持语言 | 特点 | 链接 |
|---|---|---|---|
| Argos Translate | 30+ | 离线翻译 | github.com/argosopentech/argos-translate |
| LibreTranslate | 30+ | 自托管 API | libretranslate.com |
| Opus-MT | 100+ | Helsinki NLP | github.com/Helsinki-NLP/Opus-MT |
| NLLB | 200+ | Meta 神经机器翻译 | github.com/facebookresearch/fairseq |
| Google Translate API | 100+ | 商业级 | cloud.google.com/translate |
| DeepL API | 30+ | 高质量 | deepl.com/pro-api |
低资源语言 AI
挑战与解决方案
| 问题 | 解决方案 | 工具/方法 |
|---|---|---|
| 缺乏训练数据 | 跨语言迁移 | XLM-R、mBERT |
| 缺乏标注数据 | 弱监督学习 | 远程监督 |
| 语法复杂 | 多任务学习 | 共享表征 |
| 文字系统多样 | 统一处理 | Unicode 标准化 |
低资源语言项目
| 项目 | 语言 | 描述 | 链接 |
|---|---|---|---|
| Masakhane | 非洲语言 | 非洲 NLP 社区 | masakhane.io |
| AI4Bharat | 印度语言 | 印度语言 AI | ai4bharat.iitm.ac.in |
| IndicNLP | 印度语言 | 印度语言工具 | github.com/anoopkunchukuttan/indic_nlp_library |
| African NLP | 非洲语言 | 非洲语言资源 | africanlp.masakhane.io |
| Tatoeba | 多语言 | 开源句子库 | tatoeba.org |
本地化与国际化
本地化工具
| 工具 | 功能 | 链接 |
|---|---|---|
| i18next | 国际化框架 | i18next.com |
| FormatJS | 格式化 | formatjs.io |
| Fluent | Mozilla 本地化 | projectfluent.org |
| Crowdin | 翻译管理 | crowdin.com |
| Lokalise | 本地化平台 | lokalise.com |
文化适配
| 方面 | 考量 | 工具 |
|---|---|---|
| 文本方向 | RTL/LTR | CSS 支持 |
| 日期格式 | 不同日历 | Intl API |
| 数字格式 | 千分位 | Intl API |
| 文化敏感性 | 禁忌词 | 内容审核 |
| 图标和颜色 | 文化差异 | 本地化设计 |
多语言数据集
| 数据集 | 语言 | 描述 | 链接 |
|---|---|---|---|
| Common Voice | 多语言 | Mozilla 语音数据 | commonvoice.mozilla.org |
| OPUS | 多语言 | 平行文本语料 | opus.nlpl.eu |
| CC100 | 100+ | Common Crawl 多语言 | data.statmt.org/cc-100 |
| OSCAR | 100+ | 网页文本语料 | oscar-corpus.com |
| mC4 | 101 | 多语言 C4 | tensorflow.org/datasets |
| XNLI | 15 | 跨语言 NLI | github.com/facebookresearch/XNLI |
| XTREME | 40 | 跨语言评测 | github.com/google-research/xtreme |
评测与标准
| 标准 | 范围 | 链接 |
|---|---|---|
| XTREME | 跨语言理解 | sites.research.google/xtreme |
| XGLUE | 跨语言理解 | microsoft.com/en-us/research/project/xglue |
| FLORES | 机器翻译 | github.com/facebookresearch/flores |
| MLQA | 跨语言 QA | github.com/facebookresearch/MLQA |
相关页面
- AI 数据集资源大全 — AI 数据集大全
- AI 训练与微调平台 — AI 训练与微调平台
- AI 开源生态与社区资源 — AI 开源生态与社区资源
- entities — AI 实体与公司
参考来源
- Hugging Face 多语言模型库
- Papers with Code 多语言任务
- Mozilla Common Voice
- BigScience 项目