<div dir="ltr"><div>Hi all!</div><div><br></div><div>I'd like to automatically check for spelling errors in the Hebrew text of my site which is close to be fully validated XHTML5.</div><div><br></div><div>So I created this branch - <a href="https://github.com/shlomif/shlomi-fish-homepage/tree/spell-check-hebrew">https://github.com/shlomif/shlomi-fish-homepage/tree/spell-check-hebrew</a> (note the branch name). Which adds autochecking using <a href="https://metacpan.org/pod/Text::Hunspell">https://metacpan.org/pod/Text::Hunspell</a> . However many legitimate Hebrew words are marked as errors:</div><div><br></div><div>```</div><div>==== GLOBAL:<br><br>אב-טיפוס<br>באופן<br>באמצע<br>באמת<br>בבידוד<br>בבית<br>בבלבול<br>בדיוק<br>בודאי<br>בווסט-צ'סטר<br>בזהירות<br>ביותר<br>ביממה<br>ביראת-כבוד<br>בישראל<br>בכל<br>בכמעט<br>בלנסות<br>במהירות<br>במודע<br>במטה<br>במסגרת<br>במשך<br>בסגנון<br>בעוד<br>בעולם<br>בעזרת<br>בעצמך<br>בפיתוח<br>בפעם<br>בפרוייקטים<br>בקיצור<br>ברגע<br>ברמה<br>ברשת<br>בשימוש<br>בשנת<br>בתחילת<br>דברי-חוכמה<br>האינטרנט<br>האלה<br>האמונה<br>הבזאר<br>הדברים<br>הדואר<br>החשובה<br>הטכני<br>היוניקסית<br>הייחודית<br>הינה<br>היתה<br>הלינוקס<br>המזל<br>המחשב<br>המפוזרים<br>המקומיים<br>המתוכנת<br>הסיפור<br>העבודה<br>העדינים<br>העובדה<br>העובדים<br>העולם<br>העורך<br>הפיתוח<br>הפרוייקט<br>הצד<br>הקורים<br>הקתדרלה<br>הראשונים<br>הרשת<br>התאוריה<br>ואוכל<br>ואחרים<br>וגישות<br>והבזאר<br>והוא<br>והרבה<br>וייתכן<br>ויציבה<br>וכלים<br>וכן<br>וכתבתי<br>ומחוברים<br>ומלווה<br>ומצאתי<br>ומתוכננת<br>וסואן<br>ועובד<br>וקוד-פתוח<br>ותכנות<br>טורבלדס<br>כאילו<br>כאשר<br>כהלם<br>כהפתעה<br>כיום<br>ככל<br>כרגע<br>כשלינוקס<br>כשפיתחתי<br>ל-<br>לבדוק<br>לבזאר<br>לבחון<br>לדואר<br>להבין<br>להבנות<br>להגיע<br>להטיף<br>להיות<br>להציע<br>להריץ<br>להשתפר<br>להתלכד<br>לחיל<br>לחלום<br>לטפל<br>לינוס<br>ליעדו<br>למודעות<br>למעיין<br>למעשה<br>לעברית<br>לעשות<br>לפרוייקט<br>לצאת<br>לראשונה<br>לרשת<br>מאז<br>מהתורמים<br>מראש<br>מרובת-המשתמשים<br>מתוך<br>ניסים<br>סטיבן<br>על-ידי<br>פיש<br>פרוייקט<br>קוד-פתוח<br>ריימונד<br>שהדואר<br>שהוא<br>שהלך<br>שהם<br>שהשתתפתי<br>שהתוכנה<br>שידעתי<br>שיודיעו<br>שיכולתי<br>שלא<br>שמעליה<br>שמערכת<br>שמתוכו<br>שנראה<br>שסגנון<br>שסומלו<br>שעדיין<br>שקהילת<br>תוכנות</div><div>```</div><div><br></div><div>the main problem seems the handling of <a href="https://en.wikipedia.org/wiki/Affix">https://en.wikipedia.org/wiki/Affix</a> es such as "be" "le" "she". So I wish to avoid whitelisting all these variations which is a lot of menial work.</div><div><br></div><div>How can I use hspell to spellcheck UTF8 hebrew text inside valid XHTML in the context of an automated test suite - <a href="https://github.com/shlomif/what-you-should-know-about-automated-testing">https://github.com/shlomif/what-you-should-know-about-automated-testing</a> ? In theory what I need is a way to: 1. Get a boolean indicating if any errors were found. 2. Give me a list of disliked words so I can correct or whitelist them. <br></div><div><br></div><div>Should I use <a href="https://linux.die.net/man/3/hspell">https://linux.die.net/man/3/hspell</a> ?</div><div><br></div><div><div><br>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr">Shlomi Fish <a href="http://www.shlomifish.org/" target="_blank">http://www.shlomifish.org/</a><br><br>Buddha has the Chuck Norris nature.</div><div dir="ltr"><br></div><div dir="ltr">Please reply to list if it's a mailing list post - <a href="http://shlom.in/reply" target="_blank">http://shlom.in/reply</a> .<br></div></div></div></div></div></div></div></div></div>