藏文信息处理工具集(Tibetan_Information_Processing_Toolkit),其功能包括:生成完整的藏文字符集、智能识别藏文字符集、多种藏文字符排序解决算法、藏文基本集与扩展集转换、藏文拉丁互转、藏文字符与数字编码互转、藏汉电子词典等应用,为藏文数字化处理提供基础的方案。适用于藏文信息研究、语言学习、数字化等领域。
藏文信息处理工具集(Tibetan_Information_Processing_Toolkit),其功能包括:生成完整的藏文字符集、智能识别藏文字符集、多种藏文字符排序解决算法、藏文基本集与扩展集转换、藏文拉丁互转、藏文字符与数字编码互转、藏汉电子词典等应用,为藏文数字化处理提供基础的方案。适用于藏文信息研究、语言学习、数字化等领域。
藏文词云生成器 (Tibetan Word Cloud Generator) 专为藏文设计的智能词云生成工具,支持多字体、多形状、多颜色自定义配置。
This Tibetan tokenizer based on Bi-LSTM+CRF methods, it was created with the aim of aiding researchers in the field of Tibetan natural language processing.
本项目是基于原版 SynthTIGER 定制的文本图像数据生成工具,专为藏文多场景 OCR(光学字符识别)任务设计。该版本针对藏文字符结构、书写规则及排版特性进行底层优化,集成多维度藏文资源与增强功能,支持高效生成贴合真实场景的训练数据,助力藏文文本识别模型的研发与优化。
DeepSeek-OCR 是深度求索(DeepSeek)基于前沿深度学习研发的多模态文字识别系统。不同于传统固定规则 OCR,它整合计算机视觉(CV)、自然语言处理(NLP)与多模态大模型技术,能智能理解文字上下文,且针对多语种混排优化,可精准定位藏文及其他语种区域,同步检测识别提取,解决藏文易受干扰的痛点。
一个专门用于藏文文字识别的 JavaScript 库,基于 Tesseract.js 开发。该库可以在浏览器和 Node.js 环境中运行,无需安装任何原生依赖,即可实现藏文图像到文本的转换。适用于藏文文字识别,支持100多种语言的javascript OCR
最近一年贡献:9 次
最长连续贡献:1 日
最近连续贡献:1 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。