<div dir="ltr"><div>The answer to the original post is &quot;It&#39;s not HA, it&#39;s MA, however...&quot;</div><div><br></div><div>Middle-Availability is not high-availability, of course, but it&#39;s a good start.</div>
<div>HA is a very nice buzz word. HA should protect you against what? software failure? OS failure? hardware failure? network failure? storage failure? site failure? Internet failure?</div><div><br></div><div>Each of these add some small (or huge) amount of money to the total solution. You can protect yourself from everything you would ever consider, but I presume a fully continent-distributed HA solution with zero loss is not cheap, and probably, more than you need.</div>
<div><br></div><div>To give an example you could relate to - if you&#39;re going to buy a car, you will not buy yourself (probably) a Farari. Not because it&#39;s not a good car - it&#39;s excellent car, probably way better than what you would have imagined yourself driving in - it&#39;s excellent, but you need &quot;good enough&quot;. </div>
<div><br></div><div>I tend to divide HA solutions into several groups, each has its own price tag and level of protection. They should match the requirements, and more than that - the customer should be aware of the protection he gets. Don&#39;t expect it to do miracles, just know what&#39;s expected of it. HA is much like backup, or like insurance. You want it there, but you don&#39;t want to use it, and again - you would not buy the one protecting your teeth with 4M$. </div>
<div><br></div><div>The original question level of protection is against these:</div><div>Application failure</div><div>OS failure</div><div>Application misconfiguration</div><div>It does not protect against network failure (maybe against link failure if it&#39;s over bonding), or storage failure (I presume it&#39;s local storage). However, it&#39;s a cheap solution and easy to understand.</div>
<div>The pros of this specific solution is that the infrastructure is already there, Investing the required amount of money, and he can split it into two separated machines, with shared storage device, and gain some hardware failure protection, without any logical change to the infrastructure or the design of the current systems.</div>
<div>This is a solution he can grow with to everything he wants. This is a good solution, based on the expected expenses, and the fact that most companies cannot invest the capital required for enterprise-class HA solutions. Not everyone can afford EMC DMX4 with SRDF to another EMC, the leased line between them, the geo-cluster software and the distributed and fully redundant network devices involved. Compromises are common, and as long as the cluster functionality is tested, and the behavior is expected and documented, this can be called MA, which is poor-people&#39;s-HA.</div>
<div><br></div><div>I say - if you know what you&#39;re doing - this is good enough. </div><div><br></div><div>Ez</div><div><br></div><div>P.S - Amos, sorry for sending this directly to you. The list behavior dictates that &quot;reply&quot; would send to the person sent the mail, and not the list.</div>
<div>Sorry.</div><div><br></div><div>Ez</div><br><div class="gmail_quote">On Thu, Apr 15, 2010 at 3:12 PM, Amos Shapira <span dir="ltr">&lt;<a href="mailto:amos.shapira@gmail.com">amos.shapira@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div class="im">On 15 April 2010 17:50, guy keren &lt;<a href="mailto:choo@actcom.co.il">choo@actcom.co.il</a>&gt; wrote:<br>

&gt;<br>
&gt; and - test test test.....<br>
&gt;<br>
&gt; many people fail to test their &quot;highly-available&quot; setup, and as a result,<br>
&gt; think they are &#39;highly available&quot; when they are not.<br>
<br>
</div>Great point!<br>
<br>
Earlier at my current position we failed to test that the fail-over<br>
works on one of our servers after an upgrade and got beaten the next<br>
time the primary went south.<br>
<br>
Since then it&#39;s our standard practice to:<br>
1. update the current stand-by<br>
2. switch over (effectively updates the service to the new version).<br>
3. Wait a while and see that everything is fine (the current stand-by<br>
still ready with the old proven version).<br>
4. Update the current secondary.<br>
5. Switch back to make sure HA works right.<br>
(6. For good measure - switch again).<br>
<br>
We also do all of this through an elaborate set of scripts around xen,<br>
kickstart and puppet (keeping the xen guest images in LV&#39;s, came handy<br>
when we had to roll-back) so all this deployment procedure is<br>
completely automated and repeatable so we exercise not just the<br>
in-house built software and its configuration setup but also the<br>
deployment procedure itself.<br>
<br>
We reached a stage where a single operations engineer upgrades our<br>
entire production system of about 50 virtual servers across 18<br>
physical servers in three mornings of running automatic scripts (i.e.<br>
no need for manual configuration changes).<br>
<br>
(We stick to mornings because of a rule not to schedule production<br>
changes in the afternoons or before a weekend, unless absolutely<br>
necessary).<br>
<font color="#888888"><br>
--Amos<br>
</font><div><div></div><div class="h5"><br>
_______________________________________________<br>
Linux-il mailing list<br>
<a href="mailto:Linux-il@cs.huji.ac.il">Linux-il@cs.huji.ac.il</a><br>
<a href="http://mailman.cs.huji.ac.il/mailman/listinfo/linux-il" target="_blank">http://mailman.cs.huji.ac.il/mailman/listinfo/linux-il</a><br>
</div></div></blockquote></div><br></div>