第二十四個夏天後: 8月 2023

2023年8月31日星期四

Node.js 筆記 - 使用 Puppeteer 抓取網頁上的圖片內容並靠 Tesseract 分析圖片上的文字 (OCR) @ macOS 13.5.1, node v20.5.1, tesseract v5.3.2

剛好有同好在詢問如何處理認證碼的事，就順手複習一下 node.js 與 Puppeteer 動態爬網頁，並且把認證碼圖片存起來，在靠 Tesseract 分析上述的文字。

以前略知光學字元辨識(OCR) 的方式，但一直沒實戰，這次就順手摸一下：github.com/changyy/node-puppeteer-with-tesseract-tool

目前只單純練一下功，還不到實際使用的地步，因為 Tesseract 分析上仍有精準度問題，純做個小工具方便把玩。此程式碼只提供快速定位到 <img> (getElementById) 的方式，接著動態存成圖片，再呼叫工具分析它。

此外，已經存在本機了，後續也能靠 tesseract 指令反覆測試參數。

安裝：

% sudo port install tesseract tesseract-eng tesseract-chi-tra tesseract-chi-sim

% sw_vers
ProductName: macOS
ProductVersion: 13.5.1
BuildVersion: 22G90
% tesseract --version
tesseract 5.3.2
leptonica-1.82.0
libgif 5.2.1 : libjpeg 8d (libjpeg-turbo 2.1.5.1) : libpng 1.6.40 : libtiff 4.5.1 : zlib 1.2.11 : libwebp 1.3.1 : libopenjp2 2.5.0
Found SSE4.1
Found libarchive 3.6.2 zlib/1.2.11 liblzma/5.4.1 bz2lib/1.0.8 liblz4/1.9.4 libzstd/1.5.4
Found libcurl/8.1.2 SecureTransport (LibreSSL/3.3.6) zlib/1.2.11 nghttp2/1.51.0

使用：

% nvm use v20
Now using node v20.5.1 (npm v9.8.0)
% npm install
% npm run main
> main
> node main.js
Usage> node /private/tmp/node-puppeteer-with-tesseract-tool/main.js "WebURL" "ImageObjectID"
% node main.js
Usage> node /private/tmp/node-puppeteer-with-tesseract-tool/main.js "WebURL" "ImageObjectID"

測試：

% node main.js 'https://xxx/login' 'verifyImgCode'
[INFO] WebURL: "https://xxx/login", The id of the DOM <img>: "verifyImgCode"

  Puppeteer old Headless deprecation warning:
    In the near future `headless: true` will default to the new Headless mode
    for Chrome instead of the old Headless implementation. For more
    information, please see https://developer.chrome.com/articles/new-headless/.
    Consider opting in early by passing `headless: "new"` to `puppeteer.launch()`
    If you encounter any bugs, please report them to https://github.com/puppeteer/puppeteer/issues/new/choose.

on.domcontentloaded
on.framenavigated: about:blank
on.load
...
page.screenshot
browser.close
tesseract.recognize result:  058B47

練精準度：

% tesseract /tmp/verify-code.png stdout -c tessedit_char_whitelist=0123456789

[macOS] 從 Macbook 遠端登入 Windows 筆電並使用 PowerShell 工作環境 @ macOS 13.2.1

由於想善用 Windows 筆電的資源（算力），先來試試看能不能打通 macOS command line 遠端登入進 Windows 11 筆電。查了一下資料，看來真的也有人有這種需求 XD

原理：

Windows 11 安裝 OpenSSH Server

微軟官方文件 - 安裝 OpenSSH 用戶端和伺服器進行 Windows

macOS 安裝 PowerShell Core 資源 (非必要)

github.com/PowerShell/PowerShell

其中一還滿常見，二就有點怕怕，所幸資源算是微軟提供（？），有興趣可以裝 pkg 檔案，裝完在 macos command line 用 pwsh 指令就切換到 PowerShell 工作環境，目前只需做 (1) 就能完成需求，以下是在 Windows 11 筆電下運行指令，建議在上述微軟官方文件上複製使用，在此純做筆記：

PS C:\Users\user> Get-WindowsCapability -Online | Where-Object Name -like 'OpenSSH*'

Name : OpenSSH.Client~~~~0.0.1.0
State : Installed

Name : OpenSSH.Server~~~~0.0.1.0
State : NotPresent

PS C:\Users\user> ssh -V
OpenSSH_for_Windows_8.6p1, LibreSSL 3.4.3

PS C:\Users\user> Add-WindowsCapability -Online -Name OpenSSH.Server~~~~0.0.1.0

Path :
Online : True
RestartNeeded : False

PS C:\Users\user> Start-Service sshd
PS C:\Users\user> Set-Service -Name sshd -StartupType 'Automatic'
PS C:\Users\user> if (!(Get-NetFirewallRule -Name "OpenSSH-Server-In-TCP" -ErrorAction SilentlyContinue | Select-Object Name, Enabled)) {
>> Write-Output "Firewall Rule 'OpenSSH-Server-In-TCP' does not exist, creating it..."
>> New-NetFirewallRule -Name 'OpenSSH-Server-In-TCP' -DisplayName 'OpenSSH Server (sshd)' -Enabled True -Direction Inbound -Protocol TCP -Action Allow -LocalPort 22
>> } else {
>> Write-Output "Firewall rule 'OpenSSH-Server-In-TCP' has been created and exists."
>> }
Firewall rule 'OpenSSH-Server-In-TCP' has been created and exists.

PS C:\Users\user> ssh localhost
user@localhost's password:

如此筆電重啟後，也會自動啟動 OpenSSH Server 。而 macOS 要遠端進去一樣把它當成 linux server 即可，靠 ssh 加上帳密遠端登入。

另外，常會使用 ping 來查看機器健康情況，而 Windows 11 默認關閉（也是滿好的資安規劃），在此要人工開啟：

系統 -> 隱私權與安全性 -> Windows 安全性 -> 防火牆與網路保護 -> 進階設定 -> 輸入規則 -> 核心網路診斷 - ICMP 回應要求 -> 啟動

可以自行依照需求開啟全部 ICMP 回應或部分情境。

最後，莫忘筆電的電源節源設計，預設應該是 5分鐘就會進入休眠，可以把它調整成插電就永不進入休眠，以及要衝刺算力也可以調整電源策略。

2023年8月27日星期日

我有酒，你有故事嗎？

最近不少事務變動，在公司待的年數也增加不少，在這多頭的年裡，經歷過同事加入與主動離職，這次開始經手組員離職的流程，回顧著被離職同事的工作項目，也得重新安排給其他同事接手。在管理團隊上也體驗完全套：招募成員、成員主動離去與成員被動離去 Orz

想著想著，就像木曜四超玩的畢業典禮：

對於被離職的同事，這樣的歲數上有著許多可選之路，恰恰好被推動去選擇其他擺盪許久的機會，雖然被離開肯定不是好事，但這樣的故事發展卻也不是壞事的。

想想好友們換房換車的繼續行動、出國的出國、皮拉提斯的皮拉提斯，大家還是持續過得很精彩的。

這陣子跟幾位朋友分享彼此近況，同輩的有那種越來越收斂在自身的狀態，實在是有太多不可控的項目，包括工作的變異、親人的分離、退化的健康，漸漸地「關我屁事」可能也真的成了主流？讓自己的心情專注在自身了。

時間依舊是稀缺，當年用第24個夏天來做個足跡紀錄，現在可能要變成“人生還有多少個暑假可用？”了，看在學生時期認識的教授開始退休，還有把刷 leetcode 當作娛樂的，努力譜曲著自己的故事。

訂閱：意見 (Atom)

2023年8月31日 星期四

Node.js 筆記 - 使用 Puppeteer 抓取網頁上的圖片內容並靠 Tesseract 分析圖片上的文字 (OCR) @ macOS 13.5.1, node v20.5.1, tesseract v5.3.2

[macOS] 從 Macbook 遠端登入 Windows 筆電並使用 PowerShell 工作環境 @ macOS 13.2.1

2023年8月27日 星期日

我有酒，你有故事嗎？

Subscribe Now

2023年8月31日星期四

2023年8月27日星期日