Pemawangchuk (Pemawangchuk)

藏文信息处理工具集（Tibetan_Information_Processing_Toolkit），其功能包括：生成完整的藏文字符集、智能识别藏文字符集、多种藏文字符排序解决算法、藏文基本集与扩展集转换、藏文拉丁互转、藏文字符与数字编码互转、藏汉电子词典等应用，为藏文数字化处理提供基础的方案。适用于藏文信息研究、语言学习、数字化等领域。

藏文词云生成器 (Tibetan Word Cloud Generator) 专为藏文设计的智能词云生成工具，支持多字体、多形状、多颜色自定义配置。

This Tibetan tokenizer based on Bi-LSTM+CRF methods, it was created with the aim of aiding researchers in the field of Tibetan natural language processing.

本项目是基于原版 SynthTIGER 定制的文本图像数据生成工具，专为藏文多场景 OCR（光学字符识别）任务设计。该版本针对藏文字符结构、书写规则及排版特性进行底层优化，集成多维度藏文资源与增强功能，支持高效生成贴合真实场景的训练数据，助力藏文文本识别模型的研发与优化。

DeepSeek-OCR 是深度求索（DeepSeek）基于前沿深度学习研发的多模态文字识别系统。不同于传统固定规则 OCR，它整合计算机视觉（CV）、自然语言处理（NLP）与多模态大模型技术，能智能理解文字上下文，且针对多语种混排优化，可精准定位藏文及其他语种区域，同步检测识别提取，解决藏文易受干扰的痛点。

一个专门用于藏文文字识别的 JavaScript 库，基于 Tesseract.js 开发。该库可以在浏览器和 Node.js 环境中运行，无需安装任何原生依赖，即可实现藏文图像到文本的转换。适用于藏文文字识别，支持100多种语言的javascript OCR

JavaScript

1 0 0