自从用上arch后其他各个方面都还好,就是ocr截图翻译软件没有window的多,求推荐一个轻量好用的谢谢。
你截图之后往网页版的ChatGPT/Gemini之类的里边贴好了,够轻量了。
好的我去试试,还真没这么操作过。
就是要打提示词,你可以加到fcitx5的快速输入里,打起来就方便了。免费额度用完一个可以换另一个,还有什么deepseek、qwen啥的都能用。
好的感谢大佬 ![]()
#!/bin/bash
# @author touero
# @since 2025
# ocr: ocr in gnome or sway wm
FILE=$(mktemp --suffix=.png)
if [ -n "$WAYLAND_DISPLAY" ] && [ -n "$SWAYSOCK" ]; then
ENVIRONMENT="sway"
elif [ -n "$XDG_SESSION_DESKTOP" ] && [[ "$XDG_SESSION_DESKTOP" == "gnome" ]]; then
ENVIRONMENT="gnome"
else
echo "Unknown environment"
exit 1
fi
if [ "$ENVIRONMENT" = "gnome" ]; then
gnome-screenshot -a -f "$FILE"
elif [ "$ENVIRONMENT" = "sway" ]; then
grim -g "$(slurp)" "$FILE"
fi
TEXT=$(tesseract "$FILE" - -l chi_sim)
if [ "$ENVIRONMENT" = "gnome" ]; then
echo "$TEXT" | xclip -selection clipboard
elif [ "$ENVIRONMENT" = "sway" ]; then
echo "$TEXT" | wl-copy
fi
notify-send "OCR copy to clipboard" "$TEXT"
rm -f "$FILE"
我自己使用的脚本 这个识别感觉还行
Umiocr。缺点是只能cpu计算 但是 cuda 要手动配点东西。见 https://github.com/hiroi-sora/Umi-OCR/issues/447
诶,有人给PaddleOCR做了个PyQt5写的界面啊。PaddleOCR是支持CUDA的,你可以自己改改代码——它应该是开源的吧,虽然仓库里一堆.dll和.exe?
之前看到 issue 里作者说没有适配gpu加速的想法 ![]()
但是现在又给出了解决方案:https://github.com/hiroi-sora/Umi-OCR/issues/447
其实还有个解决方案:用Qwen3-VL。可以用llama.cpp或者ollama来跑,支持多种硬件方案(我最喜欢的是Vulkan,库小、支持广泛)。
OK谢谢大佬,我试试
Qwen3 VL这类视觉模型效果确实不错,不过毕竟始终还是大模型,本地运行配置要求稍微高了点,要尝试的话还是结合自己配置选择合适大小的模型好了。(以下Ollama跑qwen3-vl:8b使用了12G显存,如果使用llama.cpp配合gguf模型的话可能显存占用会更好点
羡慕跑得动8B,而且是Thinking版本。我都是跑Instruct版本的,不用等它思考很久。8B+Q4_K_M我都不太跑得动,还是2B的比较适合我的机器……
库库,毕竟痛失了三个月工资而且可惜当时再等几个月花同样的钱能买显存更大的7900xtx,不过主要拿来玩游戏的除了偶尔跑ComfyUI生成瑟图虚拟形象人设参考外没怎么研究过模型了…
