How do I use hspell / hunspell hebrew as part of an HTML site test suite?
Shlomi Fish
shlomif at gmail.com
Sat Jun 1 19:49:32 IDT 2019
Hi all!
I'd like to automatically check for spelling errors in the Hebrew text of
my site which is close to be fully validated XHTML5.
So I created this branch -
https://github.com/shlomif/shlomi-fish-homepage/tree/spell-check-hebrew
(note the branch name). Which adds autochecking using
https://metacpan.org/pod/Text::Hunspell . However many legitimate Hebrew
words are marked as errors:
```
==== GLOBAL:
אב-טיפוס
באופן
באמצע
באמת
בבידוד
בבית
בבלבול
בדיוק
בודאי
בווסט-צ'סטר
בזהירות
ביותר
ביממה
ביראת-כבוד
בישראל
בכל
בכמעט
בלנסות
במהירות
במודע
במטה
במסגרת
במשך
בסגנון
בעוד
בעולם
בעזרת
בעצמך
בפיתוח
בפעם
בפרוייקטים
בקיצור
ברגע
ברמה
ברשת
בשימוש
בשנת
בתחילת
דברי-חוכמה
האינטרנט
האלה
האמונה
הבזאר
הדברים
הדואר
החשובה
הטכני
היוניקסית
הייחודית
הינה
היתה
הלינוקס
המזל
המחשב
המפוזרים
המקומיים
המתוכנת
הסיפור
העבודה
העדינים
העובדה
העובדים
העולם
העורך
הפיתוח
הפרוייקט
הצד
הקורים
הקתדרלה
הראשונים
הרשת
התאוריה
ואוכל
ואחרים
וגישות
והבזאר
והוא
והרבה
וייתכן
ויציבה
וכלים
וכן
וכתבתי
ומחוברים
ומלווה
ומצאתי
ומתוכננת
וסואן
ועובד
וקוד-פתוח
ותכנות
טורבלדס
כאילו
כאשר
כהלם
כהפתעה
כיום
ככל
כרגע
כשלינוקס
כשפיתחתי
ל-
לבדוק
לבזאר
לבחון
לדואר
להבין
להבנות
להגיע
להטיף
להיות
להציע
להריץ
להשתפר
להתלכד
לחיל
לחלום
לטפל
לינוס
ליעדו
למודעות
למעיין
למעשה
לעברית
לעשות
לפרוייקט
לצאת
לראשונה
לרשת
מאז
מהתורמים
מראש
מרובת-המשתמשים
מתוך
ניסים
סטיבן
על-ידי
פיש
פרוייקט
קוד-פתוח
ריימונד
שהדואר
שהוא
שהלך
שהם
שהשתתפתי
שהתוכנה
שידעתי
שיודיעו
שיכולתי
שלא
שמעליה
שמערכת
שמתוכו
שנראה
שסגנון
שסומלו
שעדיין
שקהילת
תוכנות
```
the main problem seems the handling of https://en.wikipedia.org/wiki/Affix
es such as "be" "le" "she". So I wish to avoid whitelisting all these
variations which is a lot of menial work.
How can I use hspell to spellcheck UTF8 hebrew text inside valid XHTML in
the context of an automated test suite -
https://github.com/shlomif/what-you-should-know-about-automated-testing ?
In theory what I need is a way to: 1. Get a boolean indicating if any
errors were found. 2. Give me a list of disliked words so I can correct or
whitelist them.
Should I use https://linux.die.net/man/3/hspell ?
--
Shlomi Fish http://www.shlomifish.org/
Buddha has the Chuck Norris nature.
Please reply to list if it's a mailing list post - http://shlom.in/reply .
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mailman.cs.huji.ac.il/pipermail/linux-il/attachments/20190601/dcf638d2/attachment-0001.html>
More information about the Linux-il
mailing list